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本 书 由 计算 机 工程 领域 资深 学 者 编著 ,涵盖 了 计算 机 系统 /SoC 
设计 的 许多 重要 研究 内 容 ， 着 眼 于 以 系统 为 中 心 的 设计 空间 理念 ， 从 
基本 概念 和 分 析 技 术 着 手 ， 对 各 种 应 用 和 架构 设计 、 开 发 予以 重点 阐 
述 。 书 中 除了 讲解 计算 机 体系 结构 中 处 理 器 、 内 存 、 互 联 等 要 素 外 ， 
重点 介绍 了 系统 的 定制 化 设计 技术 与 可 重 构 性 设计 技术 ， 更 关注 系统 
级 开发 时 关于 面积 、 速 度 、 功 耗 和 可 配置 性 等 权衡 技术 发 展 ， 并 指出 
计算 机 系统 /SoC 设计 面临 的 挑战 。 

本 书 不 仅 可 供 计 算 机 系统 设计 专业 人 员 、SoC 设计 师 及 计算 机 学 
者 阅读 ， 也 可 作为 计算 机 科学 、 计 算 机 工程 及 电子 工程 等 专业 研究 生 
的 参考 书 。 
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随 着 计算 机 与 微 电 子 技术 融合 趋势 日 益 凸 显 ， 以 及 CPU/SoC 设计 技术 快速 

发 展 ， 计 算 机 体系 结构 课程 的 挑战 性 越 来 越 明 显 ， 需 要 专业 人 员 深 入 研究 微 体系 
结构 ， 也 给 培养 创新 型 计算 机 人 才 带 来 了 极 大 的 挑战 和 机 遇 。 
早 在 儿 年 前 ， 拜 读 《Computer System Design; System-On-Chip》， 就 引起 我 们 
共鸣 。 我 们 翻译 组 主 译 人 员 从 事 SoC 研究 设计 开发 近 20 年 。 “2002 年 中 国 未 来 
十 大 技术 之 一 一 一 SoC 技术 ” 就 由 主要 译 者 张 志 敏 点 评 ， 并 且 他 一 直 带 领 团队 
不 断 研究 开发 一 系列 SoC， 培 养 了 一 批 芯片 设计 人 才 。 我 们 始终 认为 SoC 能 够 为 
计算 机 学 科 发 展 注 入 新 鲜 活 力 ， 必 将 丰富 计算 机 体系 结构 教学 课件 内 容 ， 利 于 造 
就 一 大 批 优秀 的 计算 机 系统 研究 开发 人 才 。 

原 书 作者 Michael J. Flynn 是 美国 哈佛 大 学 教授 ，1966 年 提出 弗 林 分 类 学 ， 
1995 年 获 哈 利 . 古 德 纪念 奖 ，2009 年 获 贝 尔格 莱 德 大 学 荣誉 博士 。 作 者 多 年 来 
一 直 从 事 计算 系统 工程 设计 和 体系 结构 教学 研究 工作 ， 设 计 经 验 丰 富 。 他 编著 的 
原 书 英文 版 内 容 翔实 ,涵盖 了 计算 机 系统 设计 的 许多 方面 ， 从 基本 概念 和 分 析 技 
术 着 手 ， 就 各 种 应 用 和 和 架构 的 设计 开发 予以 重点 阐述 ， 对 于 计算 机 专业 师 生 和 系 
统 集成 芯片 设计 开发 者 而 言 ， 是 一 本 很 好 的 参考 书 。 

本 书 的 翻译 工作 由 范 东 害 组 织 完成 ， 宋 风 龙 和 孟 海 波 协 助 执行 ， 参 与 本 书 前 
期 辅助 翻译 工作 的 有 廖 飞 、 马 丽 娜 、 谭 旭 、 李 文明 、 王 宏 博 、 申 小 伟 、 郑 亚 松 ， 
张 志 敏 参与 较 多 的 翻译 工作 ， 并 负责 统 稿 、 校 对 、 润 色 等 工作 。 

感谢 机 械 工业 出 版 社 给 我 们 翻译 这 样 一 本 好 书 的 机 会 ， 感谢 编辑 为 本 书 出 版 
所 做 的 工作 。 
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计算 机 系统 设计 者 下 一 步 将 更 关注 系统 定制 元 素 ， 以 针对 特定 的 应 用 ， 而 非 
处 理 器 和 存储 器 系统 的 细节 。 这 样 的 设计 者 应 具有 处 理 器 和 其 他 部 件 的 基本 知 
识 ， 但 他 们 设计 成 功 与 否 将 取决 于 他 们 对 系统 的 平衡 能 力 ， 以 及 在 可 优化 成 本 、 
性 能 和 其 他 满足 应 用 需求 属性 方面 的 能 力 。 本 书 将 介绍 计算 机 系统 设计 ， 特 别 是 
SoC 设计 中 的 问题 。 

驾驭 这 样 的 设计 需要 一 系列 知识 ， 如 图 0.1 所 示 。 本 书 第 1 章 对 系统 方法 进 
行 了 简介 绪论 ， 第 2 章 着 眼 于 定义 设计 空间 面积 、 速 度 、 功 耗 和 可 配置 性 ， 
第 3 ~5 章 提供 系统 的 基本 元 素 的 背景 知识 一 处 理 器 、 内 存 和 互联 。 后 续 的 章 
节 专 注 于 面向 特定 应 用 程序 和 技术 的 计算 机 系统 定制 : 第 6 章 涵盖 了 定制 和 配置 
的 设计 问题 ， 第 7 章 讨论 了 针对 各 种 应 用 的 系统 级 平衡 技术 ， 将 早期 的 材料 归 类 
在 一 起 研究 ， 第 8 章 提 出 系统 设计 和 SoC 设计 未 来 可 能 面 对 的 挑战 。 本 书 所 描述 
的 工具 仍 在 发 展 中 ， 附 录 提 供 了 一 些 工具 概述 。 由 于 工具 不 断 革新 ， 请 经 常 看 看 
公司 的 网 站 : www. soctextbook. com。 此 外 ， 对 教学 有 用 的 材料 ， 如 幻灯 片 和 练习 
的 答案 ， 也 在 准备 中 。 

本 书 涵盖 了 计算 机 系统 设计 的 一 个 特定 的 方法 ， 介 绍 的 基本 概念 和 分 析 技 术 
适用 于 各 种 应 用 和 架构 ， 而 不 是 针对 特定 的 应 用 、 架 构 、 语 言 和 工具 。 本 书 还 包 
括 互补 处 置 和 其 他 主题 ， 如 电子 系统 级 设计 、 误 入 式 软件 开发 和 系统 级 集成 和 测 
试 。 在 适当 的 地 方 ， 本 书简 短 地 描述 和 引用 这 些 主题 ， 更 详细 的 处 置 可 能 包含 在 
未 来 的 版 本 中 或 其 他 书 中 。 

SoC 是 一 个 快速 发 展 的 领域 。 虽 然 专 注 于 基本 的 资料 ， 但 为 完成 本 书 也 简要 
介绍 了 最 新 的 技术 进展 。 当 然 ， 这 些 最 新 的 相关 技术 ， 可 到 如 网 站 等 相关 的 信息 
源 找 寻 。 

许多 同事 和 学 生 ， 多 数 来 自 英国 伦敦 帝国 理工 学 院 和 美国 斯 坦 福 大 学 ， 对 本 
书 做 出 了 贡献 。 很 抱歉 ， 难 以 在 这 里 说 出 他 们 所 有 人 的 名 字 。 然 而 ,一 些 人 应 该 
特别 感谢 ，Peter Cheung 从 一 开始 就 与 我 们 合作 ， 他 的 贡献 体现 在 许多 主题 上 ， 
特别 是 第 5 章 ; Tobias Becker, Ray Cheung, Rob Dimond, Scott Guo, Shay Ping 
Seng, David Thomas, Steve Wilton, Alice Yu 和 Chi Wai Yu 等 对 各 章节 提供 了 重 
要 素材 ; Philip Leong 和 Roger Woods 多 次 精读 了 手稿 并 提供 了 许多 改进 建议 ; 也 
AK Jeffrey Arnold, Peter Boehm, Don Bouldin, Geoffrey Brown, Patrick Hung, Se- 
bastian Lopez, Oskar Mencer, Kevin Rudd 和 匿名 审 稿 人 等 获 益 良 多 ; 感谢 Kubi- 
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lay Atasu、Peter Collingbourne, James Huggett, Qiwei Jin, Adrien Le Masle, Pete 


Sedcole 和 Tim Todman 等 提供 的 宝贵 援助 。 
最 后 ， 感 谢 美 国 Wiley 出 版 社 的 Cassie Strickland、 美 国 Toppan Best-set 出 版 


社 的 Janet Hronek 对 及 时 完成 本 书 提供 的 帮助 。 
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图 0.1 本 书 所 述 SoC 设计 方案 
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AC Autonomous Chip, H Ew} 

A-D Analog to Digital ， 模 - 数 转换 

AES Advanced Encryption Standard ， 高 级 加 密 标 准 
AG Address Generation ， 地 址 形成 

ALU Arithmetic and Logic Unit, RZ AJE 





AMBA Advanced Microcontroller Bus Architecture ， 先 进 微 控制 器 总 线 架 构 
ASIC Application -Specific Integrated Circuit， 专 用 集成 电路 

ASIP Application -Specific Instruction Processor， 专 用 指令 处 理 需 

ASoC Autonomous System-on-Chip， 自 主 片 上 系统 


























AXI Advanced eXtensible Interface， 先 进 的 可 扩展 接口 
BC Branch Conditional， 条 件 转移 





BIST Built-In-Self-Test, Patt A Wit 

BRAM Block Random Access Memory， 块 随机 存 取 存储 器 
BTB Branch Target Buffer， 分 支 目 标 缓存 

CAD Computer Aided Design， 计 算 机 辅助 设计 

CBWA ” Copy-Back Write Allocate cache， 复 制 回 写 缓存 分 配 



































CC Condition Codes， 条 件 码 

CFA Color Filter Aray， 彩 色 滤 波 阵列 

CGRA Coarse-Grained Reconfigurable Architecture ， 粗 粒度 可 重 构 体 系 结构 
CIF Common Intermediate Format, ， 通 用 中 间 格 式 

CISC Complex Instruction Set Computer， 复 杂 指 令 集 计算 机 

CLB Configurable Logic Block， 可 配置 逻辑 块 











CMOS Complementary Metal Oxide Semiconductor， 互 补 金属 氧化 物 半导体 
CORDIC COordinate Rotation Digital Computer， 坐 标 旋转 数字 计算 机 






































CPI Cycles Per Instruction, 平均 指令 周期 数 
CPU Central Processing Unit， 中 央 处 理 单元 





DCT Discrete Cosine Transform， 离 散 余 弦 变 换 
DDR Double Data Rate， 双 数据 速率 








DES Data Encryption Standard， 数 据 加 密 标准 
3DES Triple Data Encryption Standard， 三 重 数据 加 密 标 准 
DF Data Fetch， 取 数据 





DMA Direct Memory Access， 直 接 存 储 访 问 
DRAM Dynamic Random Access Memory， 动 态 随机 存 取 存 储 器 
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DSP Digital Signal Processing ( Processor) ， 数 字 信 号 处 理 (4) 

DTMR Design Target Miss Rates， 设 计 目 标的 命中 率 

ECC Error Correcting Code, 244744 

eDRAM embedded Dynamic RandomAccess Memory, RA RIIA BELÉ Cita 









































EX Execute, $447 

FIFO First In First Out， 先 进 先 出 

FIR Finite Impulse Response， 有 限 冲 激 响 应 
FO4 Fan-Out of four, 4 JH} 

FP Floating-Point, FA 

FPGA Field Programmable Gate Array， 现 场 可 编程 门 阵列 
FPR Floating-Point Register， 浮 点 寄存 器 

FPU Floating-point unit， 浮 点 部 件 

GB Giga Bytes, a billion (10°) bytes， 吉 字 节 
GIF Graphics InterFace, AUG JM 

GPP General-Purpose Processor， 通 用 处 理 需 
GPR General-Purpose Register, 通用 寄存 器 
GPS Global Positioning System ， 全 球 定 位 系统 





GSM Global System for Mobile communications , 全 球 移动 通信 系统 
HDTV High Definition TeleVision , 高 清晰 度 电 视 












































HPC High Performance Computing ， 高 性 能 计算 机 
IC Integrated Circuit， 集 成 电路 

ICU Interconnect interface Unit， 互 联接 口 单元 
ID Instruction Decode, 46824645 

IF Instruction fetch， 取 指 

ILP Instruction-Level Parallelism ， 指 令 级 并 行 
yo Input/Output， 输 入 /输出 

IP Intellectual Property， 知 识 产 权 

IR Instruction Register, 指令 寄存 器 

ISA Instruction Set Architecture ， 指 令 集 体系 结构 








ISEF Instruction Set Extension Fabric， 指 令 集 扩展 架构 
JPEG Joint Photographic Experts Group (image compression standard) ， 联 合 图 像 专家 小 组 


Kb Kilo bits, one thousand (10°) bits, F (1024) 位 
KB Kilo Bytes, one thousand bytes, (1024) “#77 
L1 Level 1 (for cache) ,一 级 缓存 

L2 Level 2 (for cache) ， 二 级 缓存 

LE Logic Element, 4AF 














LRU Least Recently Used， 最 近 少 使 用 的 
L/S Load/Store， 取 存 





vl 计算 机 系统 设计 ， 片 上 系统 








LSI Large Scale Integration ， 大 规模 集成 
LUT LookUp Table， 查 找 表格 

Mb Mega bits, one million (10°) bits， 兆 位 
MB Mega Bytes, one million bytes ， 兆 字 节 




















MEMS Micro Electro Mechanical System ， 微 机 电 系 统 

MIMD Multiple Instruction streams, Multiple Data streams， 多 指令 多 数据 流 

MIPS Million Instructions Per Second， 每 秒 百 万 指令 

MOPS Million Operations Per second， 每 秒 百 万 操作 

MOS Metal Oxide Semiconductor， 金 属 氧 化 物 半 导体 

MPEG Motion Picture Experts Group (video compression standard) ， 动 态 图 像 专家 组 
MTBF Mean Time Between Faults ， 平 均 故 障 间 隔 时 间 

MUX MUltipleXor， 多 路 转 接 器 

NOC Network On Chip， 片 上 网 络 

OCP Open Core Protocol ， 开 放 核 心 协议 

OFDM Orthogonal Frequency-Division Multiplexing， 正 交 频 分 复 用 
PAN Personal Area Network ， 个 人 区 域 网 络 

PCB Printed Cireuit Board， 印 制 电 路 板 

PLCC Plastic Leaded Chip Carier， 塑 料 封装 芯片 载体 

PROM Programmable Read Only Memory, RETENAS 
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QCIF Quarter Common Intermediate Format， 四 分 之 一 通用 中 间 格 式 
RAM Random Access Memory， 随 机 访问 存储 处 理 器 

RAND Random, ， 随 机 

RAW Read-After-Write， 写 后 读 

rbe register bit edquivalent， 寄 存 器 位 等 效 

RF Radio Frequency， 无 线 射 频 

RFID Radio Frequency Identification ， 射 频 识别 

RISC Reduced Instruction Set Computer， 精 简 指 令 集 计算 机 





R/M Register/Memory, AIF AS/A 
ROM Read Only Memory, RIET MAR 





RTL Register Transfer Language , 寄存 器 传送 语言 
SAD Sum of the Absolute Differences， 绝 对 差异 的 总 和 


SDRAM Synchronous Dynamic Random Access Memory， 同 步 动态 随 机 存 取 存储 器 
SECDED Single Error Correction, Double Error Detection ， 单 纠 错 双 纠 错 

SER Soft Error Rate， 软 件 错误 率 

SIA Semiconductor Industry Association, (XE) 半导体 行业 协会 

SIMD Single Instruction stream, Multiple Data streams ， 单 指令 多 数据 流 

SMT Simultaneous MultiThreading, Jf R228 #2 

SoC System on Chip， 片 上 系统 
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WB 


Static Random Access Memory， 静 态 随机 访问 存储 需 

Translation Look - Aside Buffer， 旁 路 转换 缓冲 器 

Triple Modular Redundancy， 三 重 模块 元 余 度 

Universal Asynchronous ReceiverTransmitter， 通 用 异步 接收 器 /发 送 器 
Universal Mobile Telecommunications System ， 通 用 移动 通信 系统 
UltraViolet， 紫 外 光 

Virtual Component Interface ， 虚 拟 组 件 接 
Very Long Instruction Word， 超 长 指令 字 
Very Large Scale Integration, 超大 规模 集成 
Vector Processing Unit， 向 量 处 理 单元 
Vector Register, [H] E ATTAF 

Virtual Socket Interface Alliance， 虚 拟 接口 联盟 
Write After Read， 读 后 写 

Write After Write， 写 后 写 

Write Back， 回 写 
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WTNWA Write-Through cache No Write Allocate， 直 写 无 须 写 分 配 
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第 1 董 系统 方法 简介 


1.1 系统 架构 : 概览 


在 过 去 40 年 中 ,大 家 已 经 看 到 了 随 着 硅 技术 的 巨大 进步 ， 唱 体 管 的 密度 与 
性 能 有 了 极 大 提升 。1966 年 ， 美 国 仙 童 〈Fairehild) 半导体 公司 推出 了 一 种 
四 路 双 输 入 与 非 门 ， 它 是 在 芯片 上 集成 了 大 约 10 个 晶体 管 。 而 2008 年 ， 美 国 英 
地 尔 公司 四 核 安 腾 (Itanium) 处 理 器 上 有 20 亿 个 晶体 管 汪 5 。 图 1.1 和 图 1.2 
给 出 了 在 提高 晶体 管 密度 方面 不 断 的 进步 及 设备 成 本 方面 相应 的 减少 。 
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图 1.1 不 断 增 长 的 硅 片 晶体 管 密度 





本 书 的 目标 在 于 提出 一 种 通过 利用 这 种 超 高 的 晶体 管 密度 来 进行 计算 机 系统 
设计 的 方法 。 在 某 种 程度 上 ， 本 书 是 计算 机 体系 结构 和 设计 研究 的 直接 延伸 ， 当 
然 ， 它 同样 也 是 系统 架构 和 设计 方面 的 研究 材料 。 

大 约 50 年 前 , 一 篇 具有 开创 性 的 文章 《系统 工程 一 一 大 规模 系统 设计 导 
ie)" E, JLVE# H. H. Goode 和 R. E. Machol 指出 ， 系 统 的 工程 性 观点 是 由 
处 理 复 杂 问 题 的 需求 所 产生 的 。 同 样 ， 基 于 计算 机 的 工具 极 大 地 增强 了 我 们 处 理 
复杂 设计 问题 的 能 


一 个 片上 系统 (System-on-Chip, SoC) 架构 是 由 处 理 避 、 存 储 器 及 针对 一 个 
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图 1.2 几 十 年 来 晶体 管 成 本 不 断 下 降 





应 用 领域 的 互联 所 构成 。 日 本 索尼 公司 的 PlayStation 2 ( 见 图 1.3) 的 情感 引擎 
(Emotion Engine) 2227 就 是 一 个 这 种 架构 的 简单 例子 。 它 主要 有 两 个 功能 ; 
行为 模拟 与 几何 转换 。 此 系统 包含 三 个 最 基本 的 组 成 部 分 : 一 个 精简 指令 集 计 算 
机 (Reduced Instruction Set Computer, RISC) RE 的 主 处 理 器 ; 两 个 由 4 个 并 
行 单 指令 多 数据 流 (Single Instruction Multiple Data, SIMD) ROT) Ah SH BS ZH le AY 
向 量 处 理 部 件 (Vector Processing Unit, VPU), VPUO 和 VPU1。 在 接 下 来 几 节 将 
对 这 些 组 件 及 使 用 方法 做 简要 的 介绍 。 


任务 在 于 与 任务 在 于 与 
主 处 理 器 同步 着 色 引 擎 同步 
(行为 模拟 ) (几何 转换 ) 


包含 4 个 SIMD 式 包含 4 个 SIMD 式 着 色 引 擎 
Pane 并 行 处 理 器 的 处 并 行 处 理 器 的 处 m 
Í 理 单元 〈(VPU0) 理 单元 (VPUL) 











外 存 


图 1.3 一 个 片上 系统 的 高 级 功能 视图 : 索尼 PlayStation 2°77) 情感 引擎 








在 回 到 讨论 系统 架构 问题 之 前 〈 本 章 稍 后 会 讨论 ) ， 先 回顾 一 下 组 成 系统 的 组 件 。 
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12 系统 组 件 ， 处 理 器 、 存 储 器 及 互联 


体系 结构 这 个 词 表示 系统 的 运作 结构 和 用 户 对 系统 的 视图 。 随 着 时 间 的 推 
移 ， 它 已 演变 成 同时 包含 功能 描述 和 硬件 实现 两 方面 内 容 。 系 统 架 构 定义 了 系统 
级 的 构建 模块 ， 如 处 理 器 、 存 储 器 及 它们 之 间 的 互联 。 处 理 器 架构 决定 了 处 理 器 
指令 集 、 相 关 编 程 模型 及 其 详细 实现 。 而 详细 实现 可 能 包含 不 可 见 寄存 器 、 分 文 
预测 电路 和 有 关 算 术 逻 辑 单元 (Arithmetic Logic Unit, ALU) 的 具体 细节 。 这 种 
处 理 器 的 实现 也 被 称 为 是 微 体 系 结构 ( 见 图 1.4)。 

系统 设计 师 需 要 同时 拥有 关于 系统 组 件 的 程序 员 视角 或 用 户 视角 ， 以 及 关于 
存储 器 、 各 种 专用 处 理 器 和 它们 之 间 的 互联 的 系统 视角 。 接 下 来 将 涉及 以 下 基本 
组 件 : 处 理 器 架构 、 存 储 器 及 总 线 或 互联 架构 。 

图 1.5 给 出 了 一 个 基本 的 SoC 模型 。 这 些 组 件 包括 许多 互联 到 一 个 或 多 个 存 
储 器 上 的 异 构 处 理 器 ， 以 及 一 个 可 重 构 逻 辑 阵 列 。 通 常情 况 下 ，Soc 也 包含 用 于 
管理 传 感 数据 和 模 - 数 转换 或 者 用 于 无 线 数据 传输 的 模拟 电路 。 















分 支 预测 器 


图 1.4 处 理 需 架 构 及 其 实现 图 1.5 一 个 基本 的 SoC 模型 





例如 ， 一 个 智能 手机 的 SoC 需要 在 传统 电话 的 音频 输入 /输出 功能 之 上 提供 
互联 网 接 人 功能 、 用 于 视频 通信 的 多 媒体 设备 、 文 档 处 理 ， 以 及 像 游 戏 、 电 影 这 
样 的 娱乐 功能 等 。 对 于 图 1.5 所 示 的 一 种 可 能 配置 包括 用 几 个 用 于 应 用 处 理 的 
ARM Cortex-A9 、 一 个 用 于 媒体 处 理 的 Mali-400MP 图 像 处 理 器 实 及 一 个 Mali-VE 
视频 引擎 。 这 些 系 统 组 件 和 定制 电路 将 与 如 摄像 头 、 屏 幕 及 无 线 通 信 部 件 这 样 的 
外 设 相互 作用 。 这 些 元 件 可 以 用 AXI 总 线 (高 级 可 扩展 接口 ) 接 在 一 起 。 
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如 果 所 有 的 元 件 不 能 被 集成 在 单个 芯片 上 ， 最 好 的 实现 方式 可 能 是 将 它们 集 
成 在 一 个 主板 系统 上 ， 但 是 通常 来 说 ， 这 也 被 称 为 SC。 设计 目标 的 专属 特性 是 
将 板 上 系统 (或 SoC) 与 附带 板 上 存储 的 通用 计算 机 相 区 别 。 设 计 之 初 ， 假 设 应 
用 程序 是 被 设计 者 熟知 且 特 定 的 ， 在 设计 的 过 程 中 ， 就 可 以 对 元 件 进 行 选择 、 确 
定 大 小 及 评估 。 这 样 ， 针 对 一 个 目标 应 用 ， 通 过 对 选择 、 参 数 化 和 配置 系统 组 
件 ， 就 能 够 区 分 一 个 系统 架构 师 和 一 个 计算 机 染 构 师 。 

本 章 ， 主 要 看 处 理 器 的 高 层次 定义 一 -程序 员 视 角 或 是 指令 集 架 构 (了 nn- 
struction Set Architecture，ISA) ， 以 及 处 理 器 微 体 系 结构 、 存 储 层次 和 互联 架构 
的 基本 内 容 。 在 后 续 草 节 ， 将 学 习 关 于 这 些 元 件 实现 问题 的 更 多 细节 。 


1.3 硬件 和 软件 : 可 编程 性 与 性 能 


在 SoC 设计 中 一 个 最 基本 的 抉择 就 是 选择 各 系统 组 件 是 用 硬件 还 是 用 软件 实 
现 。 表 1.1 给 出 了 硬件 实现 与 软件 实现 的 优 缺 点 。 
表 1.1 硬件 实现 与 软件 实现 的 优 缺 点 















































优 点 缺 点 
硬件 速度 快 、 功 耗 低 不 灵活 、 适 应 性 不 强 、 不 便于 构建 和 测试 
软件 灵活 、 适 应 性 强 、 便 于 构建 和 测试 速度 慢 、 功 耗 高 


软件 实现 通常 是 在 一 个 通用 处理 磊 (General Purpose Processor, GPP) 上 执 
行 ， 并 且 是 在 运行 时 解释 指令 。 这 种 架构 有 着 良好 的 灵活 性 和 适应 性 ， 而 且 在 不 
同 应 用 之 间 提 供 了 一 种 共享 资源 的 方式 。 然 而 ，ISA 的 软件 实现 与 直接 用 硬件 实 
现 相应 的 功能 相 比 更 慢 且 更 耗 电 ， 硬件 实现 没有 取 指 和 译 码 的 开销 。 

大 多 数 软件 开发 者 使 用 高 级 语言 和 工具 来 提高 生产 力 ， 如 程序 开发 环境 、 优 
化 编译 需 及 性 能 分 析 需 。 与 之 相反 ， 应 用 程序 的 直接 硬件 实现 将 生成 定制 专用 集 
成 电路 ( Application Specific Integrated Circuit, ASIC), 它 所 提供 的 高 性 能 是 以 损 
失 可 编程 性 为 代价 的 ， 同 时 代价 还 包括 灵活 性 、 生 产 力 及 成 本 。 

考虑 到 硬件 和 软件 具有 互补 的 特性 ， 很 多 SoC 设计 都 致力 于 将 这 两 者 各 上 自 的 
优点 联合 起 来 。 一 种 显而易见 的 方法 就 是 把 性 能 关键 的 部 分 用 硬件 实现 ， 其 余部 
分 则 用 软件 实现 。 例 如 ， 如 果 一 个 占 硬件 执行 时 间 90% 的 应 用 程序 只 占 源 代码 
10% 的 那 部 分 ， 那 么 把 这 10% 的 部 分 用 硬件 实现 的 话 能 获得 10 倍 的 加 速 。 这 个 
方法 将 用 到 本 书 第 6 章 的 定制 设计 中 。 

GPP 上 定制 ASIC 的 硬件 实现 与 软件 实现 可 以 看 成 是 技术 频谱 上 对 可 编程 性 
与 性 能 进行 权衡 的 两 个 极端 。 有 很 多 技术 都 处 在 这 两 个 极端 之 间 ( 见 图 1.6)。 
这 当中 最 负 盛 名 的 两 个 当 属 专用 指令 集 人 处 理 器 (Application Specific Instruction 
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Processor, ASIP) 与 现场 可 编程 门 阵 列 (Field Programmable Gate Array, FPGA) 。 
ASIP 是 包含 面向 特定 应 


用 或 领域 的 定制 指令 集 的 处 a 
理 器 。 那 些 能 在 硬件 上 高 效 


实现 的 定制 指令 通常 会 集成 
到 一 个 包含 基本 指令 集 的 基 


处 理 咒 上。 这 种 实现 方法 通 
常 可 以 用 于 改善 标准 指令 集 
的 传统 实现 方法 ， 它 能 在 完 
成 同样 任务 的 同时 保留 灵活 


性 。 本 书 第 6 章 和 第 7 章 进 
一 步 探 讨 了 一 些 涉及 定制 指 
令 的 问题 。 

FPGA 通常 包含 运算 部 件 低 age 高 
阵列 、 存 储 器 及 它们 的 互联 ， 
并 且 这 三 者 对 应 用 构建 者 来 图 1.6 一 个 简化 的 技术 比较 : 可 编程 性 与 性 能 
说 都 是 可 编程 的 。FPGA 技术 通常 能 提供 一 个 很 好 的 折 中 : 更 加 灵活 的 同时 速度 
比 软件 快 ， 而 且 比 定制 ASIC 硬件 实现 所 需 开 发 时 间 更 短 。 就 像 GPP 一 样 ， 它 们 
作为 现成 设备 用 于 编程 而 不 需要 经 过 芯片 制造 。 由 于 缩短 上 市 时 间 的 需求 不 断 上 
升 及 必 片 制造 的 成 本 不 断 增 加 ，FPCA 在 实现 数字 设计 领域 正 变 得 越 来 越 流行 。 

大 多 数 商 用 FPGA 包含 一 个 细 粒 度 逻 辑 块 阵列 ， 每 个 逻辑 块 只 有 几 位 宽 。 它 
也 可 能 包含 如 下 部 分 : 

。 粗 粒度 可 重 构架 构 (Coarse Grained Reconfigurable Architecture, CGRA) 。 
它 包含 能 处 理 位 宽 或 多 位 宽 数据 的 逻辑 块 ， 这 种 逻辑 块 可 以 形成 数据 通路 的 基石 。 

e 结构 化 ASIC。 它 允许 应 用 构建 者 在 芯片 制造 之 前 自 定 义 资 源 。 虽 然 它 提 
供 的 性 能 接近 ASIC,， 但 是 芯片 制造 的 需求 仍然 是 个 问题 。 

© 数字 信号 处 理 器 (Digital Signal Processor，DSP)。 这 些 设备 的 组 织 和 指令 
集 针 对 数字 信号 处 理应 用 进行 了 优化 。 就 像 微 处 理 带 一样， 它们 有 固定 的 、 不 可 
重 构 的 硬件 架构 。 

这 些 技术 的 可 编程 性 与 性 能 各 有 优势 ( 见 图 1.6)。 第 6~8 章 提 供 了 关于 这 
些 技术 的 深层 次 信息 。 


> 


峰值 性 能 / (操作 数 /W) 






































1.4 处 理 器 架构 


通常 情况 下 ， 一 款 处 理 器 或 是 以 它们 的 应 用 或 是 以 它们 的 架构 〈 或 结构 ) 
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作为 特色 ， 如 表 1. 2 和 表 1. 3 所 示 。 对 于 一 个 应 用 ， 其 需求 空间 总 是 很 大 ， 并 且 
也 有 一 系列 的 实现 选项 。 因 此 ， 将 一 个 特定 的 架构 与 一 个 特定 的 应 用 联系 起 来 通 
篆 是 很 困难 的 。 此 外 ， 有 些 架 构 联 合 了 不 同 的 实现 方法 ， 正 如 从 1.1 节 PlaySta- 
tion 的 例子 所 看 到 的 那样 。 图 像 处理 器 包含 一 个 四 元 件 矢 量 处 理 功能 部 件 
(Function Unit, FU) SIMD 阵列 。 而 其 他 SoC 的 实现 包含 使 用 超 长 指令 字 (Very 
Long Instruction World, VLIW) 的 多 处 理 器 ， 或 还 包含 超标 量 处 理 吉 。 


表 1.2 按照 功能 划分 的 处 理 器 举例 
























































处 理 器 类 型 应 
图 像 处 理 单元 (GPU) 三 维 图 形 ; 着 色 、 渐 变 、 纹 理 
DSP 通用 ， 有 时 使 用 无 线 
媒体 处 理 器 视频 与 音频 信号 处 理 
网 络 处 理 器 路 由 、 缓 存 

















表 1.3 按照 架构 划分 的 处 理 器 举例 
































处 理 器 类 型 架构 /实现 方法 
SIMD 单条 指令 应 用 到 多 功能 部 件 〈 处 理 器 ) 
矢量 处 理 器 (Vector Processor, VP) 单条 指令 应 用 到 多 流水 寄存 器 
VLIW 编译 器 控制 下 每 时 钟 周期 发 射 多 条 指令 
超标 量 硬件 控制 下 每 时 钟 周期 发 射 多 条 指令 














从 程序 员 的 观点 看 ， 持 续 工作 的 处 理 器 一 次 执行 一 条 指令 。 然 而 ， 很 多 处 理 
器 通过 流水 线 、 多 执行 部 件 及 多 核 技术 ， 以 对 程序 员 透 明 的 方式 ， 具 备 了 同时 执 
行 多 条 指令 的 能 力 。 流 水 线 是 一 种 强大 的 技术 ， 且 被 用 于 几乎 所 有 的 现代 处 理 央 
实现 中 。 而 在 编译 时 刻 或 是 运行 时 刻 提取 并 利用 代码 固有 并 行 性 的 技术 也 被 广泛 
使 用 。 

利用 程序 并 行 性 是 计算 机 体系 结构 中 最 重要 的 目标 之 一 。 

8442547 (Instruction Level Parallelism, ILP) 是 指 在 一 个 程序 中 多 个 操作 
能 并 行进 行 。ILP 能 通过 硬件 、 编 译 央 或 是 操作 系统 技术 来 获得 。 在 循环 这 一 
层 ， 只 要 在 相继 的 循环 迭代 之 间 没 有 数据 相关 ， 连 续 循环 迭代 是 并 行 执行 的 理想 
候选 。 接 着 ， 在 过 程 这 一 层 ， 并 行 性 的 获得 在 很 大 程度 上 取决 于 程序 所 使 用 的 算 
法 。 最 后 ， 多 个 独立 的 程序 也 能 够 并 行 地 执行 。 

不 同 的 计算 机 体系 结构 在 构建 时 都 利用 了 其 固有 的 并 行 性 。 一 般 来 说 ， 一 个 
计算 机 体系 结构 都 是 由 一 个 或 多 个 能 同时 操作 的 互联 处 理 器 元 件 (Processor Ele- 
ment，PE) 组 成 的 ， 用 来 解决 单个 整体 性 问题 。 
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1.4.1 处 理 器 : 功能 的 观点 


表 1.4 给 出 了 不 同 的 SoC 处 理 咒 模型 实例 ， 包 括 不 同 的 SoC 设计 及 每 种 设计 
中 所 使 用 的 处 理 堪 。 对 于 这 些 实例 ， 可 以 把 它们 定性 为 通用 处 理 需 或 是 支持 游戏 
或 信号 处 理应 用 的 专用 处 理 咒 。 这 种 功能 化 的 观点 没有 讲述 关于 底层 的 硬件 实 
现 。 事 实 上 ， 几 种 完全 不 同 的 架构 方法 都 能 实现 相同 的 通用 功能 。 以 图 像 功 能 ; 
例 ， 需 要 具备 着 色 、 泻 染 和 纹理 功能 及 可 能 的 视频 功能 。 根 据 这 些 功能 的 相对 重 












































要 性 和 所 创建 图 像 的 分 辨 率 ， 能 够 制造 出 完全 不 同 的 架构 。 
表 1.4 不 同 的 SoC 处 理 器 模型 实例 
SoC 应 基本 ISA 处 理 吉 描述 
Freescale e60011011 DSP PowerPC 超标 量 及 矢量 扩展 
ClearSpeed CSX6001591 通用 Proprietary ISA 包含 96 个 处 理 部 件 的 阵列 处 理 器 
PlayStation 2114:187-237] 通用 MIPS 包含 两 个 矢量 协 处 理 器 的 流水 线 处 理 器 
ARM VFP110231 通用 ARM 可 配置 矢量 协 处 理 器 














1.4.2 处 理 器 : 架构 的 观点 


体系 架构 的 角度 至 少 以 一 种 宽泛 的 方式 描述 了 处 理 器 系统 的 实际 实现 。 而 对 
于 复杂 的 架构 方法 ， 需 要 更 多 细节 才能 理解 其 完整 的 实现 。 

简单 顺序 处 理 器 ”顺序 处 理 器 直接 实现 了 顺序 执行 模型 。 这 些 处 理 器 顺序 地 
从 指令 流 中 人 处理 指令 。 下 一 条 指令 只 有 在 当前 指令 的 所 有 执行 都 完成 且 结 果 被 提 
交 以 后 才能 被 处 理 。 

指令 的 语义 决定 了 动作 序列 必须 产生 特定 结果 ( 见 图 1.7)。 这 些 动作 能 够 
重 辣 ,但 是 结果 必须 以 特定 的 串 行 顺序 出 现 。 这 些 动作 包括 以 下 六 项 : 

1) 将 指令 取 到 指令 寄存 器 (IF); 

2) 对 指令 的 操作 码 进行 译 码 (ID); 

3) 生成 数据 项 的 内 存 地 址 (AG); 

4) 将 操作 数 取 到 可 执行 寄存 器 (DF); 

5) 执行 特定 的 操作 (EX) ; 

6) 将 结果 写 回 到 寄存 器 (WB) 。 

指令 


Cr He Hee Hee 


图 1.7 简单 顺序 处 理 需 的 指令 时 序 
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图 1.8 给 出 了 一 个 简单 顺序 处 理 器 模型 。 在 执行 期 间 ， 每 个 时 钟 周期 里 顺序 
处 理 器 从 指令 流 中 执行 一 条 或 多 条 操作 。 指 令 就 是 一 个 容器 ， 它 代表 了 由 处 理 器 
显 式 管理 的 最 小 执行 包 。 一 条 指令 包含 了 一 个 或 多 个 操作 。 指 令 与 操作 之 间 的 区 
别 对 于 区 分 处 理 顺 行为 至 关 重 要 。 标 量 和 超标 量 处 理 器 每 个 周期 消耗 一 条 或 多 条 
指令 ， 而 每 条 指令 只 包含 一 个 单一 的 操作 。 


































数据 缓存 


解码 部 件 









控制 部 件 





功能 部 件 数据 寄存 器 





图 1.8 一 个 简单 顺序 处 理 需 模型 








尽管 概念 上 很 简单 ， 顺 序 地 执行 每 条 指令 却 有 明显 的 性 能 缺陷 : 大 量 的 时 间 
都 花 在 了 重合 执行 上 而 不 是 真正 的 执行 中 。 因 此 ， 直 接 实 现 顺序 执行 模型 获得 了 
简易 性 的 同时 产生 了 明显 的 性 能 开销 。 

流水 线 处 理 器 ”流水 线 是 一 种 利用 并 行 性 的 简单 方法 ， 这 种 并 行 性 是 基于 同 
时 执行 指令 处 理 的 不 同 阶 段 ( 取 值 、 译 码 、 执 行 等 ) 而 来 的 。 流 水 线 技术 假设 
这 些 阶段 在 不 同 的 操作 之 间 是 独立 且 可 重 钱 的 。 即 ， 当 这 种 状况 无 法 保持 时 ， 人 处 
理 带 通过 和 暂停 后 续 阶段 来 强制 保持 独立 性 。 因 此 ， 多 个 操作 能 能 够 同时 人 处理， 每 
个 操作 处 在 指令 处 理 的 不 同 阶段 。 图 1.9 给 出 了 流水 线 处 理 器 的 指令 时 序 ， 假 设 
这 些 指 令 是 相互 独立 的 。 























指令 训 


指令 妃 


指令 #3 


指令 #4 


图 1.9 流水 线 处 理 需 的 指令 时 序 














对 于 一 个 简单 流水 线 机 器 ， 在 任意 给 定时 刻 ， 每 个 阶段 具有 一 个 操作 。 因 
此 ， 一 个 阶段 正在 执行 取 指 〈 正 ) ， 一 个 阶段 正在 执行 译 码 (ID ) ， 一 个 阶段 正 
在 生成 地 址 (AG) ， 一 个 阶段 正在 访问 操作 数 (DF)， 一 个 阶段 正在 执行 





第 1 章 系统 方法 简介 9 





(EX) ， 以 及 一 个 阶段 正在 回 写 结果 (WB)。 图 1.10 给 出 了 一 个 简单 流水 线 处 
理 器 模型 。 最 古板 的 流水 线形 式 一 般 被 称 为 静态 流水 线 ， 它 要 求 处 理 器 经 过 流水 
线 的 所 有 阶段 而 不 管 特定 的 指令 是 否 需 要 这 些 阶 段 。 而 动态 流水 线 允 许 根据 指令 
的 要 求 绕 过 一 个 或 多 个 阶段 。 更 复杂 的 动态 流水 线 允 许 指令 乱 序 完 成 ， 或 乱 序 开 
台 。 乱 序 处 理 器 必须 确保 程序 的 顺序 一 致 性 被 保留 下 来 。 表 1. 5 给 出 了 使 用 流水 
线 “ 软 ”处 理 器 的 SoC 实例 。 


指令 缓存 


解码 部 件 





图 1.10 一 个 简单 流水 线 处 理 器 模型 


整数 
功能 部 件 
控制 部 件 


内 存 / 
二 级 缓存 





数据 缓存 


数据 寄存 器 





功能 部 件 











表 1.5 使 用 流水 线 “ 软 ”处 理 器 的 SoC Sep”) 
( 软 处 理 顺 是 由 FPCGCA 或 是 类 似 的 可 重 构 技 术 实现 的 ) 





























处 理 器 字 长 /bit | 流水 线段 数 ee FPU® 常用 目标 
缓存 "总 量 /KB 
Xilinx MicroBlaze 32 3 0 ~64 可 选 FPCA 
Altera Nios II fast 32 6 0 ~64 一 FPGA 
ARC 600!!! 16/32 5 0 ~32 可 选 ASIC 
Tensilica Xtensa LX 16/24 5~7 0 ~32 可 选 ASIC 
Cambridge XAP3a 16/32 2 一 一 ASIC 

















QD 指 可 配置 的 指令 缓存 与 数据 缓存 。 

@ FPU; Floating Point Unit， 浮 点 部 件 。 

ILP 流水 线 虽 然 并 不 必然 导致 在 同样 的 时 间 执行 多 条 指令 ， 但 是 有 其 他 的 
技术 能 够 做 到 。 这 些 技 术 可 以 联合 静态 调度 与 动态 分 析 ， 来 同时 执行 几 个 不 同 操 
作 的 实际 求 值 阶段 ， 这 样 可 能 产生 大 于 每 周期 一 个 操作 的 执行 速率 。 由 于 历史 上 


大 多 数 指令 都 只 包含 





个 单 





的 操作 ， 这 种 类 型 的 并 行 被 称 为 ILP。 


超标 量 处 理 器 和 VLIW 处 理 器 就 是 利用 ILP 的 两 种 架构 。 它 们 使 用 不 同 的 技 
术 来 获得 大 于 每 周期 一 个 操作 的 执行 速率 。 超 标量 处 理 器 动态 地 检查 指令 流 来 确 
定 哪 些 操 作 是 独立 上 且 可 执行 的 。 而 VLIW 处 理 器 依赖 编译 器 来 分 析 可 用 操作 
(OP) ， 并 将 独立 操作 安排 成 宽 指 令 字 。 这 样 就 可 以 并 行 执行 这 些 操作 而 无 需 进 


一 步 分 析 。 
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图 1.11 给 出 了 流水 线 化 的 ILP 处 理 器 的 指令 时 序 ， 它 是 流水 线 化 的 超标 量 处 
理 器 或 是 VLIW 处 理 器 每 周期 执行 两 条 指令 的 指令 时 序 。 在 这 种 情况 下 ， 所 有 的 指 
令 都 是 独立 的 ， 这 样 它 们 能 够 并 行 执 行 。 下 面 将 会 描述 这 两 种 架构 的 更 多 细节 。 


指令 #1 























图 1.11 流水 线 化 的 ILP 处 理 器 的 指令 时 序 





(1) 超标 量 处 理 器 ”动态 流水 线 通 过 其 标量 特性 的 优点 仍然 仅 限 于 每 周期 
执行 单条 操作 。 这 种 限制 能 够 通过 增加 多 个 功能 部 件 及 动态 调度 带 来 避免 ， 从 而 
使 得 每 周期 能 处 理 多 条 指令 ( 见 图 1. 12)。 这 些 超 标量 处 理 器 '” 能 够 获得 每 周 
期 多 条 指令 的 执行 速率 (通常 限制 为 2， 但 是 根据 应 用 类 型 还 可 能 更 多 ) 。 超 标 
量 处 理 器 最 显著 的 优势 在 于 每 周期 处 理 多 条 指令 对 用 户 来 说 是 透明 的 ， 并 且 还 在 
于 它 能 在 获得 更 好 性 能 的 同时 具备 二 进 制 代码 兼容 性 。 


内 存 / 
二 级 缓存 


指令 缓存 数据 缓存 
功能 部 件 


功能 部 件 
功能 部 件 


重 排 
缓冲 器 

| 

图 1.12 超标 量 处 理 器 模型 






























控制 部 件 











解码 部 件 






分 派 栈 
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对 比 于 动态 流水 线 处 理 器 ， 超 标量 处 理 器 增加 了 一 个 调度 指令 窗口 ， 它 能 在 
每 个 周期 从 指令 流 中 分 析 多 条 指令 。 尽 管 这 些 指令 是 并 行 处 理 的 ， 但 是 对 竺 它们 
与 在 流水 线 处 理 器 中 是 一 样 的 。 在 指令 发 射 执行 之 前 ， 硬 件 必 须 检 查 该 指令 与 前 
面 指 令 的 依赖 关系 。 

由 于 动态 调度 逻辑 的 复杂 性 ， 高 性 能 超标 量 处 理 器 都 限制 在 每 周期 只 处 理 
4 ~6 条 指令 。 尽 管 超标 量 处 理 器 能 够 从 动态 的 指令 流 中 利用 ILP， 但 是 要 想 利用 
更 高 级 别 的 并 行 性 需要 其 他 的 方法 。 

(2) VLIW 处 理 器 “ 相 比 于 通过 硬件 的 动态 分 析 来 决定 哪些 指令 能 并 行 执 
行 ，VLIW 处 理 器 ( 见 图 1.13) 需要 依靠 编译 器 的 动态 分 析 。 








数据 缓存 






功能 部 件 
VLIW 


解码 部 件 
















控制 部 件 功能 部 件 








功能 部 件 


图 1.13 VLIW 处 理 器 模型 





因此 ，VLIW 处 理 器 没有 超标 量 处 理 器 复杂 ， 并且 拥有 提升 性 能 的 潜力 。 
VLIW 处 理 带 从 经 过 静态 调度 上 且 包含 多 个 独立 操作 的 指令 中 执行 操作 。 由 于 
VLIW 处 理 融 的 控制 复杂 性 没有 显著 高 于 标量 处 理 器 ， 因 而 其 提高 的 性 能 不 是 因 
为 复杂 性 的 增加 而 换 来 的 结果 。 

VLIW 处 理 器 依赖 编译 器 的 静态 分 析 ， 而 且 没 法 利用 任何 动态 执行 的 特点 。 
对 于 那些 能 够 通过 静态 调度 来 高 效 地 使 用 处 理 器 资源 的 应 用 来 说 ， 一 个 简单 的 
VLIW 实现 就 能 产生 很 高 的 性 能 。 然 而 不 幸 的 是 ， 不 是 所 有 的 应 用 都 能 高 效 地 吏 
态 调 度 。 很 多 应 用 不 是 完全 按照 编译 器 中 的 代码 调度 器 所 安排 的 路 径 来 执行 的 。 
如 下 两 类 执行 变化 会 影响 已 调度 的 执行 行为 : 

1) 延迟 了 的 操作 结果 ， 其 延迟 不 同 于 编译 需 调 度 后 所 设想 的 延迟 。 

2) 例外 或 中 断 ， 使 得 执行 路 径 变 成 完全 不 同 的 和 预料 之 外 的 代码 调度 。 

尽管 暂停 处 理 顺 能 够 控制 延迟 了 的 结果 ， 但 是 这 样 会 明显 导致 性 能 损失 。 最 
常见 的 执行 延迟 当 属 数据 缓存 失效 。 很 多 VLIW 处 理 需 通过 避免 数据 缓存 和 设想 
操作 的 最 坏 延 迟 来 避免 所 有 会 产生 延迟 的 情形 。 然 而 ， 当 没有 足够 的 并 行 性 来 隐 
藏 暴露 出 来 的 最 坏 操作 延迟 时 ， 指 令 调 度 会 产生 很 多 未 完全 填充 满 的 指令 甚至 是 
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空 指令 ， 进 而 导致 很 差 的 性 能 。 
表 1.6 和 表 1.7 给 出 了 一 些 代表 性 的 超标 量 处 理 硕 和 VLIW 处 理 需 SoC 实例 。 


表 1.6 使 用 超标 量 处 理 器 的 SoC 实例 














设 a 功能 部 件数 目 发 射 宽度 基本 指令 集 
MIPS 74K Core!'83! 4 2 MIPS32 
Infineon TriCore2!!??! 4 3 RISC 
Freescale e600!1°!! 6 3 PowerPC 











表 1.7 使 用 VLIW 处 理 器 的 SoC 实例 














设 Off 功能 部 件数 目 发 射 宽 度 
Fujitsu MB93555AL101 8 8 
TI TMS320C6713BL23] 8 8 
CEVA-X1620154] 30 8 
Philips Nexperia PNX1700!'%?! 30 5 








SIMD 2249: 阵列 与 矢量 处 理 器 SIMD 类 的 处 理 器 架构 既 有 阵列 处 理 器 又 
有 矢量 处 理 器 。SIMD 处 理 右 能 够 自然 地 响应 使 用 如 矢量 和 和 矩阵 这 样 特 定 规则 的 
数据 结构 。 从 汇编 级 别 程序 员 的 角度 看 ， 除 了 有 些 操作 是 针对 集合 数据 进行 运算 
以 外 ， 对 SIMD 架构 编程 看 起 来 很 类 似 对 简单 处 理 器 编程 。 由 于 这 样 的 规则 结构 
广泛 使 用 于 科学 编程 中 ，SIMD 处 理 器 在 这 些 环境 中 变 得 越 来 越 成 功 。 

最 流行 的 两 种 SIMD 处 理 屁 当 属 阵列 处 理 涡 与 矢量 处 理 器 。 在 实现 与 数据 组 
织 方面 ， 两 者 都 不 相同 。 阵 列 处 理 器 是 由 很 多 互联 的 处 理 器 元 件 组 成 的 ， 每 个 处 
理 需 元 件 都 拥有 其 自己 的 本 地 存储 空间 。 而 矢量 处 理 器 是 由 单个 处 理 器 组 成 的 ， 
它 能 引用 一 个 全 局 的 存储 空间 并 且 拥 有 能 进行 矢量 操作 的 特殊 功能 部 件 。 

阵列 处 理 器 或 是 矢量 处 理 器 能 够 通过 扩展 其 他 常规 机 器 的 指令 集 来 得 到 。 这 
些 扩展 的 指令 能 够 控制 处 理 器 或 是 某 种 协 处 理 需 中 的 特殊 资源 。 这 样 扩展 的 目的 
是 为 了 提高 特殊 应 用 的 性 能 。 

(1) 阵列 处 理 器 ”阵列 处 理 器 ( 见 图 1.14) 是 由 一 组 并 行 处 理 器 元 件 通 过 
一 个 或 多 个 网 络 连 接 起 来 的 ， 而 且 很 可 能 包含 本 地 和 全 局 的 元 件 间 通信 和 控制 通 
言 。 处 理 器 元 件 通 过 锁 步 操作 来 响应 控制 处 理 器 (如 SIMD) 的 单 广播 指令 。 每 
个 处 理 絮 元 件 (Processor Element, PE) 有 其 私有 的 内 存 ， 而 数据 则 以 一 种 规则 
的 方式 分 配 并 穿 过 元 件 ， 这 种 方式 既 依 赖 数据 的 实际 结构 ， 还 依赖 在 数据 上 所 执 
行 的 运算 。 直 接 访问 全 局 内 存 或 是 另 一 个 处 理 器 元 件 的 内 存 开 销 是 很 大 的 ， 所 以 
中 间 值 是 通过 阵列 及 本 地 处 理 器 间 连 接 来 传播 的 。 这 就 需要 数据 能 小 心地 分 配 ， 
使 得 传播 值 的 路 由 能 够 简单 而 规则 。 比 起 支持 处 理 器 元 件 间 复杂 或 是 不 规则 的 数 
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据 路 由 ， 有 时 复制 值 然 后 运算 会 更 容易 。 
















指令 缓存 


解码 部 件 





内 存 /寄存 器 
处 理 器 元 件 


内 存 /寄存 器 
处 理 器 元 件 


内 存 /寄存 器 
处 理 器 元 件 












控制 部 件 


通信 方法 (如 总 线 ) 
图 1.14 阵列 处 理 右 模型 





由 于 指令 是 广播 的 ， 本 地 处 理 器 元 件 没 办 法 改变 指令 流 的 流动 。 然 而 ,个 别 
处 理 器 元 件 能 根据 本 地 状态 信息 有 条 件 地 禁用 指令 。 即 ， 当 这 种 状况 发 生 时 ， 这 
样 的 处 理 需 元 件 是 空闲 的 。 实 际 的 指令 流 是 由 一 个 以 上 的 固定 操作 流 组 成 的 。 阵 
列 处 理 器 通常 与 一 个 通用 控制 处 理 器 耦合 在 一 起 。 通 用 处 理 器 既 提供 标量 操作 也 
提供 数组 操作 。 而 数组 操作 会 被 广播 到 阵列 中 的 所 有 处 理 需 元 件 。 这 个 控制 处 理 
需 执 行 应 用 的 标量 部 分 、 与 外 界 交 互 ， 并 控制 执行 流 。 而 阵列 处 理 需 则 执行 由 控 
制 处 理 器 所 指定 的 应 用 的 数组 部 分 。 

一 个 能 在 阵列 处 理 器 上 使 用 的 合适 应 用 需 具 有 以 下 几 个 关键 特征 : 大量 的 具 
有 规则 结构 的 数据 、 均 匀 地 施加 到 许多 或 是 所 有 数据 集 上 的 运算 、 与 运算 和 数据 相 
关 的 简单 而 规则 的 模式 。 求 解 Navier-Stokes 方程 就 是 一 个 具备 这 些 特征 的 应 用 实 
例 ， 然 而 任何 包含 显著 矩阵 运算 的 应 用 都 很 可 能 从 阵列 处 理 吉 的 并 发 能 力 中 获 益 。 

表 1.8 给 出 了 基于 阵列 处 理 右 的 SoC 实例 。ClearSpeed 处 理 器 就 是 一 个 面 问 
信和 号 处 理应 用 的 阵列 处 理 需 芯片 的 实例 。 


表 1.8 基于 阵列 处 理 器 的 SoC 实例 


















































设 备 每 个 控制 部 件 的 处 理 顺 数目 数据 大 小 /bit 
ClearSpeed CSX600!5°] 96 32 
Atsana J2211 [1741 可 配置 16/32 
Xelerator X10q!?*7! 200 4 








(2) FREEADS ae Ah BL aie ai ee PA A IS AD FE Be AA — i Ae E eb i, 
只 不 过 它 的 某 些 功能 部 件 〈 和 寄存 器 ) 是 对 矢量 进行 操作 的 。 所 谓 矢量 操作 是 
指数 据 值 序列 看 起 来 是 当做 一 个 整体 进行 操作 的 。 这 些 功 能 部 件 都 是 深 流水 且 时 
钟 频率 很 高 。 相 比 于 标量 功能 部 件 ， 尽 管 矢 量 流 水 线 的 延迟 更 高 ， 但 是 快速 输入 
矢量 数据 交付 加 上 高 时 钟 频率 ， 使 得 其 吞吐 量 非常 大 。 
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现代 矢量 处 理 器 要 求 矢量 明确 地 加 载 到 特殊 矢量 寄存 器 且 要 存 回 内 存 一 基 
于 相似 的 理由 与 现代 标量 处 理 器 的 做 法 一 样 。 矢 量 处 理 器 有 几 个 特点 使 得 它们 拥 
有 很 高 的 性 能 。 一 大 特点 就 是 当 其 在 矢量 寄存 器 中 运算 时 ， 拥 有 能 在 矢量 寄存 器 
与 主 存 之 间 并 发 加 载 和 存储 值 的 能 力 。 这 是 一 个 很 重要 的 特点 ， 由 于 矢量 寄存 器 
的 长 度 限制 ， 这 就 需要 那些 比 寄存 器 长 度 还 长 的 矢量 能 够 分 段 处 理 。 所 谓 分 段 是 
一 种 称 为 露天 采矿 的 技术 (strip mining) 。 而 内 存 访问 和 运算 如 果 不 能 同时 发 生 
就 会 造成 明显 的 性 能 瓶颈 。 

大 多 数 矢量 处 理 器 都 支持 结果 旁 路 ， 在 这 种 情况 下 称 为 链接 。 即 一 旦 前 面 的 
运算 的 第 一 个 结果 可 用 以 后 ， 允 许 后 续 的 运算 马上 开始 。 因 此 ， 不 需要 等 待 全 部 
矢量 都 处 理 完成 ， 后 续 运算 能 够 与 前 面相 互 独立 的 运算 同时 执行 。 连 续 的 运算 能 
够 高 效 地 复合 操作 就 像 它们 是 单条 操作 一 样 ， 这 样 总 的 延迟 就 是 第 一 条 操作 的 延 
迟 加 上 剩 下 操作 的 流水 线 延迟 和 链接 延迟 ， 而 不 是 无 链接 情况 下 从 头 到 尾 的 开 
销 。 例 如 ， 除 法 能 通过 将 倒数 与 乘 操作 链接 来 进行 综合 。 链 接 通常 适用 于 加 载 操 
作 及 常规 运算 的 结 

典型 的 矢量 处 理 器 配置 ( 见 图 1.15) 由 一 个 矢量 寄存 器 堆 、 一 个 矢量 加 法 
部 件 、 一 个 矢量 乘法 部 件 及 一 个 矢量 倒数 部 件 〈 用 于 和 矢量 乘法 部 件 结合 来 进 
行 除法 运算 ) 组 成 。 矢 量 寄存 器 堆 包含 多 个 矢量 寄存 器 (元件 ) 。 


内 存 / 
二 级 缓存 



































指令 缓存 数据 缓存 


解码 部 件 





控制 部 件 







数据 寄存 器 














图 1.15 矢量 处 理 器 模型 
表 1.9 给 出 了 使 用 矢量 寄存 絮 的 实例 。IBM 大 型 机 把 矢量 指令 (及 硬件 支 
持 ) 作为 选项 提供 给 特定 用 户 。 
表 1.9 使 用 矢量 处 理 器 的 SoC 实例 
































Kw 备 矢量 功能 部 件 矢量 寄存 器 
Freescale e600110!] 4 32 个 可 配置 
Motorola RSVPI38] 4 (64 位 可 分 成 16 位 ) 两 个 流 ( 两 入 一 出 ) 存储 器 

ARM VFP111231 3 (64 位 可 分 成 32 位 ) 4x8, 32 位 
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多 处 理 器 ”通过 某 种 形式 的 互联 来 共享 结果 ， 多 个 处 理 器 能 够 合作 运行 来 解 
决 一 个 单一 的 问题 。 在 这 种 配置 中 ， 尽 管 每 个 处 理 器 完全 独立 地 运行 ， 但 是 大 多 
数 应 用 在 执行 期 间 需 要 某 种 形式 的 同步 ， 使 得 处 理 期 间 能 够 传递 信息 和 数据 。 由 
于 多 个 处 理 器 共享 存储 且 执 行 单独 的 程序 任务 (MIMDS) ， 这 样 它们 的 实现 会 比 
阵列 处 理 器 复杂 得 多 。 大 多 数 配 置 对 所 有 处 理 器 来 说 都 是 相同 的 ， 尽 管 这 并 不 是 
一 个 必须 要 求 。 表 1. 10 给 出 了 多 处 理 器 与 多 线程 处 理 器 的 SoC 实例 。 


表 1.10 多 处 理 器 与 多 线程 处 理 器 的 SoC 实例 







































































SoC Machanick!'®! IBM Cell!41 Philips PNX8500!7! Lehtoranta! !55] 
CPU 数目 4 1 2 4 

线程 1 很 多 1 1 
矢量 部 件 0 8 0 0 

应 各 种 各 样 各 种 各 样 HDTV MPEG 解码 

注释 仅 为 建议 方案 又 称 为 Viper 2 软 处 理 器 





多 处 理 絮 中 的 互联 网 络 在 处 理 占 元 件 间 传 递 着 数据 并 同步 独立 执行 流 。 当 人 处 
理 需 内 存 被 分 配给 所 有 处 理 器 旦 只 有 本 地 处 理 器 元 件 能 访问 它 时 ， 所 有 的 数据 共 
享 都 要 明确 地 使 用 消息 来 进行 ， 而 且 所 有 的 同步 也 是 在 消息 系统 中 处 理 的 。 当 处 
理 器 内 存 被 所 有 处 理 器 元 件 共享 时 ， 同 步 是 个 大 问题 。 当 然 ， 可 以 通过 存储 系统 
在 处 理 咒 元 件 之 间 用 消息 来 传递 数据 和 信息 ， 但 是 这 样 做 必然 没有 最 高 效 地 使 用 
系统 。 

当 处 理 器 元 件 之 间 的 通信 是 通过 一 个 共享 的 存储 地 址 空间 进行 时 ， 处 理 器 元 
件 之 间 不 管 是 全 局 式 共享 还 是 分 布 式 共享 ( 称 为 分 布 式 共享 存储 是 为 了 区 别 于 
分 布 式 存储 ) ， 痢 会 产生 两 个 显著 的 问题 。 第 一 个 问题 就 是 维持 存储 一 致 性 : 
在 内 存 引用 上 对 程序 员 可 见 的 影响 ， 既 来 自 于 处 理 需 元 件 内 部 还 来 自 不 同 处 理 
器 元 件 之 间 。 这 个 问题 通常 是 通过 人 硬件 和 软件 技术 的 联合 来 解决 的 。 第 二 个 问 
题 就 是 缓存 相关 性 ， 这 是 个 程序 员 不 可 见 机 制 ， 确 保 所 有 处 理 器 元 件 对 于 给 定 
的 存储 部 件 所 看 到 的 都 是 相同 的 值 。 这 个 问题 通常 是 专门 通过 硬件 技术 来 解 
TRAY 

Zo Nb ait FR BE ie EBERT RPE, QR ae a oc 
都 有 其 自己 的 地 址 空间 (分 布 式 存储 ) ， 那 么 处 理 器 元 件 之 间 唯 一 的 通信 方法 就 
是 通过 消息 传递 。 而 如 果 地 址 空间 是 共享 的 (共享 式 存储 ) ， 那 么 通信 就 可 以 通 
过 存储 系统 进行 。 



































© MIMD: Multiple Instruction Stream Multiple Data Stream, 多 指令 流 多 数据 流 。 
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当 把 存储 一 致 性 和 缓存 相关 性 考虑 在 内 时 ， 分布 式 存储 机 带 的 实现 远 比 共享 
式 存 储 机 带 的 实现 要 容易 。 然 而 ， 对 分 布 式 存 储 处 理 右 编程 会 更 加 困难 ， 因 为 应 
用 必须 能 够 利用 消息 传递 这 种 处 理 顺 元 件 间 唯一 的 通信 形式 且 不 能 被 其 限制 。 
另 一 方面 ， 尽 管 有 维持 一 致 性 和 相关 性 方面 的 问题 ， 但 是 对 共享 式 存 储 处 理 咒 
进行 编程 时 能 够 利用 任何 与 给 定 通信 要 求 相 适应 的 通信 模式 ， 因 而 也 更 容易 
编程 。 


1.5 内 存 与 寻 址 


不 同 的 SoC 应 用 对 内 存 的 需求 各 不 相同 。 有 的 情况 下 ， 内 存 结构 能 简单 到 程 
序 完全 驻 留 在 只 读 内 存 (Read Only Memery, ROM) 中 ， 而 数据 则 在 片上 RAM 
中 。 而 另 一 种 情况 下 ， 内 存 系统 可 以 通过 内 存 管 理 及 缓存 层次 来 支持 复杂 的 需要 
片 外 存储 空间 (SoC) 的 操作 系统 。 

为 什么 不 是 简单 地 把 内 存 与 处 理 器 包含 在 世 片 上 呢 ? 这 其 中 有 很 多 妙 处 : 

1) 提高 了 内 存 的 可 达 性 ， 既 改善 了 内 存 的 访问 时 间 ， 又 提高 了 内 存 的 访问 
带宽 。 

2) 减少 了 对 大 缓存 块 的 需求 。 

3) 提高 了 内 存 密集 型 应 用 的 性 能 。 

但 是 这 样 做 也 存在 问题 。 第 一 个 问题 就 是 DRAM 内 存 处 理 技 术 不 同 于 标准 
的 微 处 理 需 处 理 技 术 ， 而 且 会 导致 在 位 密度 上 有 所 牺牲 。 第 二 个 问题 更 加 严重 ， 
如 果 内 存 被 处 理 器 芯片 所 限制 ， 其 大 小 也 会 相应 地 被 限制 。 这 样 一 来 ， 那 些 对 实 
际 内 存 空 间 需 求 量 非 常 大 的 应 用 就 会 “ 踊 脚 ”了 。 因 此 ， 篆 规 的 处 理 需 芯片 模 
型 就 演变 成 ( 见 图 1. 16) 实现 多 个 强大 的 同类 处 理 需 在 其 自己 的 多 片 模块 上 与 
片 外 主 存 共享 高 达 两 级 或 三 级 缓存 。 























图 1.16 处 理 器 加 片 外 内 存 





从 设计 复杂 性 的 观点 看 ， 它 有 着 成 为 “万 能 ”解决 方案 的 优势 : 一 种 实现 
就 适合 了 所 有 的 应 用 ， 尽 管 它 没有 肯定 达到 一 样 好 。 所 以 ， 当 大 量 的 设计 工作 都 
需要 这 种 实现 时 ， 产 量 能 够 大 到 足以 证 明成 本 是 可 合理 摊 销 的 。 

对 于 这 种 方法 的 替代 品 也 是 很 明显 的 。 对 于 那些 内 存 大 小 有 界 的 特定 应 用 ， 
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能 够 实现 一 种 内 存 集成 式 的 SoC, 
如 图 1.17 所 示 (还 可 以 回想 图 1.3 
所 示 的 结构 ) 。 

一 个 相关 但 又 独立 的 问题 是 ， 
应 用 需要 虚拟 存储 (把 磁盘 空间 映 


射 到 内 存 ) 吗 ? 或 是 全 部 都 用 实际 
内 存 是 合适 的 吗 ? 下 面 将 介绍 对 虚 | 
拟 存储 寻 址 的 需求 。 l 

最 后 ， 内 存 可 以 是 集中 式 的 也 图 1. 17 SoC: 处 理 器 与 内 存 
可 以 是 分 布 式 的 。 即 使 在 这 里 ， 尽 
管内 存 是 在 几 个 分 布 式 的 模块 中 实现 的 ， 对 程序 员 来 说 内 存 仍然 可 以 显得 是 单个 
(集中 式 ) 共享 内 存 。 表 1. 11 给 出 了 几 种 SoC 内 存 考 虑 事项 。 

表 1.11 几 种 SoC 内 存 考 虑 事项 







































































问题 实 现 注释 
N 片上 大 小 有 限 且 国定 
ee 片 外 板 上 系统 ， 访 问 慢 ， 带 宽 有 限 
实际 寻 址 大 小 有 限 ，0S 简单 
虚拟 寻 址 非常 复杂 ， 需 要 TLB 及 指令 有 序 执行 的 支持 
分 类 ( 按 多 处 理 共享 存储 需要 硬件 支持 
编程 方式 ) 消息 传递 额外 编程 
集中 式 受 限于 芯片 考量 
分 类 实现 方 
ae E 分 布 式 可 与 处 理 器 或 其 他 存储 模块 聚合 
存储 系统 是 由 各 个 存储 层次 中 的 物理 存储 元 件 组 成 的 。 这 些 元 件 包 括 那 些 由 


指令 集 所 指定 的 《寄存器 、 主 存 及 磁盘 扇 区 ) ， 以 及 那些 对 用 户 程 序 大 都 透明 的 
(缓冲 寄存 器 、 缓 存 及 页 式 虚 存 ) o 


1.5.1 SoC 内 存 实例 


表 1.12 不 同 SoC 存储 层次 实例 


SoC 应 缓存 大 小 片上 / 片 外 实际 /虚拟 























4KB 指令 缓存 7 
NetSilicon NET + 401184] 网 络 片 外 实际 
etSilicon + 4KB 数据 缓存 a 








8KB 指令 缓存 
ilic [185] T à pL Ep 
NetSilicon NS9775 + Ep 4 ay HZ A al 外 虚拟 
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( 续 ) 
SoC 应 缓存 大 小 片上 / 片 外 实际 /虚拟 
16KB 指令 缓存 
NXP LH7A4041186] 网 络 sean 片上 虚拟 
网 络 4KB 数据 缓存 Fy Het 
Motorola RSVP!*8! 多 媒体 瓦 片 缓冲 存储 器 片 外 实际 














表 1.12 给 出 了 不 同 SoC 存储 层次 实例 ， 展 示 了 很 多 不 同 的 SoC 设计 及 它们 
的 缓存 和 内 存 配置 。 对 SoC 设计 师 来 说 ， S 
一 个 值得 考虑 的 重要 问题 。 表 1. 13 RH RAT FERRE CY SoC 实例 ， 

ANS BAT FAR ICY SoC 例子 。 


表 1.13 RAT Hikes BITCH SoC 实例 (单元 类 型 的 讨论 详 见 本 书 第 4 章 ) 





















































O Ñ 单元 类 型 (典型 ) SoC 用 户 (典型 ) 

Virage Logic 6T (SRAM) SigmaTel/ ARM 
ATMOS 1T (eDRAM) Philips 
IBM 1T (eDRAM) IBM 











TE. T 代 表 一 位 单元 上 的 晶体 管 数目 。 





1.5.2 Sut: 内 存 架 构 


用 户 的 内 存 视图 主要 是 指 对 程序 员 来 说 可 用 的 寻 址 设备 。 这 些 设备 有 些 是 对 
应 用 程序 员 可 用 的 ， 而 有 些 是 对 操作 系统 程序 员 可 用 的 。 虚 拟 存储 使 得 那些 内 存 
需求 比 物理 内 存 还 要 大 的 程序 得 以 运行 ， 并 且 多 个 应 用 程序 执行 时 允许 有 分 开 的 
寻 址 空间 以 便 防止 未 授权 内 存 访问 。 当 虚拟 寻 址 设备 被 正确 地 实现 和 编程 使 用 
后 ， 内 存 就 能 高 效 而 安全 地 访问 了 。 

虚拟 存储 通常 是 由 一 个 存储 管理 部 件 所 支持 的 。 概 念 上 讲 ， 物 理 内 存 寻 址 是 
由 以 下 连续 的 (至少) 三 步 所 决定 的 : 

1. 应 用 中 产生 一 个 进程 地 址 。 伴 随 着 进程 ID 或 用 户 ID ， 它 定义 了 虚拟 地 
址 。 虚 拟 地 址 = 偏 移 + (程序 ) 基 地址 + 索引 ， 偏 移 是 在 指令 中 指定 的 ， 而 基地 
址 与 索引 的 值 都 在 特定 的 寄存 器 中 。 

2. 由 于 多 个 处 理 器 必须 在 同一 个 内 存 空间 里 合作 ， 所 以 进程 地 址 需要 调整 
并 浮动 。 这 通常 根据 段 表 来 完成 的 。 虚 拟 地 址 的 高 位 用 于 段 表 寻 址 ， 段 表 中 有 进 
fe (预订 的 ) 基地 址 和 界限 值 ， 这 样 形成 了 系统 地 址 。 系 统 地 址 = 虚拟 地 址 + 
(进程 ) 基地 址 。 系 统 地 址 必须 小 于 界线 。 

3. 虚拟 与 实际 。 对 很 多 Soc 应 用 (以 及 所 有 的 通用 系统 ) 来 说 ， 内 存 空间 
超过 了 (实际) 实现 的 内 存 。 在 这 里 ， 存 储 空 间 是 在 磁盘 上 实现 的 ， 且 只 有 那 
些 最 近 使 用 的 区 域 ( 页面) 才 会 放 到 内 存 来 。 这 些 可 用 的 页 面 是 由 页 表 定 位 的 。 
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当 页 数据 从 磁盘 加 载 以 后 ， 其 在 内 存 中 的 位 置 将 会 作为 “实际 ”或 物理 内 存 地 
址 的 高 位 。 而 实际 地 址 的 低位 与 虚拟 地 址 的 相应 的 低位 是 一 样 的 。 

通常 ， 表 ( 段 表 或 页 表 ) 是 在 内 存 中 进行 地 址 转换 的 ， 并 且 转 换 中 必须 使 
用 一 种 称 为 旁 路 转换 缓冲 (Translation Lookaside Buffer, TLB) 的 机 制 来 加 快 转 
换 。TLB 就 是 一 个 简单 的 寄存 器 系统 ， 通 常 是 由 64 ~ 256 项 组 成 的 ， 保 存 着 用 于 
重用 的 最 近 地 址 转换 。 只 有 少量 的 〈 散 列 的 ) 虚 地 址 位 用 于 TLB 寻 址 。TLB 项 
中 既 有 实际 地 址 也 有 完整 的 虚 地 址 (及 其 ID) 。 如 果 虚 地 址 匹配 了 ，TLB 中 的 实 
际 地 址 就 可 用 了 。 和 否则 ， 就 出 现 了 TLB 失效 事件 ， 然 后 就 必须 进行 一 个 完整 的 
址 转换 了 ( 见 图 1. 18) 。 


页 内 字 节 






































图 1.18 包含 TLB 旁 路 的 虚实 地 址 映射 


1.5.3 SoC 操作 系统 内 存 


操作 系统 及 其 内 存 管理 功能 是 涉及 SoC 设计 的 关键 的 抉择 (RER) 之 一 。 
设计 师 的 主要 兴趣 在 于 对 虚 存 的 需求 。 如 果 系 统 受 限 于 实际 内 存 (物理 寻 址 的 ， 
而 不 是 虚拟 寻 址 的 ) 且 内 存 大 小 只 有 数 十 兆 字 节 ， 那 么 系统 可 以 实现 成 片上 
(完全 片上 内 存 ) 真实 系统 。 而 虚拟 存储 需要 复杂 的 存储 管理 部 件 ， 通 常 较 慢 而 
且 明 显 更 贵 。 表 1. 14 给 出 了 SoC 设计 中 的 操作 系统 ， 展 示 了 一 些 当 前 的 SoC 设 
计 及 其 操作 系统 。 
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表 1.14 SoC 设计 中 的 操作 系统 



































os 三 商 存储 器 类 型 
uClinux 开源 的 实际 
VxWorks (RTOS) [?54] 美国 风 河 (Wind River) 公司 实际 
Windows CE 美国 微软 (Microsoft) 公司 虚拟 
Nucleus (RTOS) 1751 美国 明 导 (Mentor Graphics) 公司 实际 
MQK (RTOS)! 美国 ARC 公司 实际 
当然 ， 快 速 的 实际 内 存 设 计 伴随 功能 上 的 代价 。 用 户 只 能 以 有 限 的 方式 来 创 


建新 的 进程 及 扩展 系统 应 用 基础 。 


1.6 系统 级 互联 





SoC 技术 通常 依赖 各 种 预先 设计 好 的 电路 模块 (BI IPS 块 ) 的 互联 来 形成 一 
个 完整 的 并 能 集成 在 单个 芯片 上 的 系统 。 通 过 这 种 方式 ， 设 计 任 务 从 电路 级 上 升 
到 系统 级 。 此 时 所 使 用 的 互联 方法 就 会 成 为 系统 级 性 能 与 成 品 可 靠 性 所 关注 的 重 
点 。 设 计 良 好 的 互联 方案 应 具备 有 力 而 高 效 的 通信 协议 ， 并 明确 地 定义 成 发 布 标 
准 。 这 样 不 同 组 织 、 不 同人 所 设计 的 卫 块 之 间 就 能 方便 地 互通 而 且 能 够 促进 IP 
块 重用 。 它 应 能 在 不 同 模块 之 间 能 提供 高 效 的 通信 以 获得 最 大 的 并 行程 度 。 

SoC 互联 方法 主要 分 为 两 类 一 一 总 线 与 片上 网 络 ， 如 图 1. 19 和 图 1. 20 所 示 。 























图 1.19 SoC 系统 级 互联 : 基于 总 线 的 方法 





© IP: Intellectual Property， 知 识 产 权 。 
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路 由 逻辑 









IO 控制 器 





图 1.20 Sot 系统 级 互联 : 片上 网 络 方法 


16.1 基于 总 线 方法 


在 基于 总 线 的 方法 中 ， 卫 块 设计 成 符合 已 发 布 的 总 线 标准 (如 英国 ARM 公 
BIA) AMBAO." a ESEE] IBM 公司 的 CoreConnect! ) 。 模 块 之 间 的 通信 是 通过 
物理 互联 的 地 址 、 数 据 及 控制 总 线 信 号 的 共享 来 获得 的 。 这 是 SoC 系统 级 互联 中 
常见 的 一 种 方法 。 通 常 ， 系 统 会 通过 层次 化 样式 来 使 用 两 个 或 更 多 的 总 线 。 为 了 
优化 系统 级 的 性 能 与 开销 ， 最 靠近 CPU 的 总 线 具 有 最 高 的 带宽 ， 而 离 CPU 最 远 
的 总 线 有 着 最 低 的 带宽 。 


1.6.2 片上 网 络 方法 


片上 网 络 系统 是 由 开关 阵列 组 成 的 ， 这 些 开关 要 人 么 像 交 又 开关 和 矩阵 那样 动态 
地 开关 ， 要 么 像 网 格 网 络 那样 基态 地 开关 。 

交叉 开关 矩阵 方法 使 用 异步 通道 来 连接 同步 的 能 以 不 同时 钟 频 率 运作 的 模 
块 。 这 种 方法 相 比 于 基于 总 线 的 系统 有 着 更 高 的 郁 吐 量 ， 同 时 也 让 系统 与 多 时 钟 
域 的 集成 更 加 容易 。 




















© AMBA: Advanced Microcontroller Bus Architecture ， 高 级 微 控 制 器 总 线 架 构 。 
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在 简单 的 静态 开关 网 络 ( 见 图 1.20) 中 ， 每 个 结 点 都 包含 形成 核心 的 处 理 
逻辑 及 其 自己 的 路 由 逻辑 。 互 联 方案 是 基于 一 个 二 维 的 网 格 拓扑 。 开 关 之 间 的 所 
有 通信 是 通过 数据 包 进 行 的 ， 而 且 是 通过 各 自 结 点 内 部 的 路 由 接口 电路 来 路 由 
的 。 由 于 开关 之 间 的 互联 有 着 固定 的 距离 ， 就 大 大 减少 了 如 导线 延迟 及 串扰 噪声 












































这 样 的 互联 相关 问题 。 表 1. 15 给 出 了 不 同 SoC 的 互联 模型 实例 。 
表 1.15 不 同 SoC 的 互联 模型 实例 
SoC 应 i] 互联 类 型 
ClearSpeed CSX600!5°] 高 性 能 计算 ClearConnect 总 线 

NetSilicon NET + 4011% 网 络 定制 总 线 

NXP LX7A404[1861 网 络 AMBA 总 线 

Intel PXA27x!!°?! 移动 /无 线 PXBus 

Matsushita i-Platform[176] 媒体 内 联 总 线 
Emulex InSpeed SoC320!!30] 开关 交叉 开关 
MultiNoc!!”?! 多 处 理 系 统 片上 网 络 








1.7 SoC 设计 方法 


为 了 有 效 且 高 效 地 完成 设计 ， 和 弄 清 需 求 与 规范 、 在 设计 的 不 同 阶段 进行 迭代 
是 设计 过 程 中 两 个 重要 的 思想 。 


1.7.1 需求 与 规范 


需求 与 规范 是 任何 系统 设计 情形 中 基本 的 概念 。 在 设计 开始 前 两 者 都 必须 彻 
底 理 解 清楚 。 在 设计 过 程 开 始 和 结束 时 它们 很 有 用 : 在 开始 时 ， 用 于 阐明 需要 获 
得 什么 ; 在 结束 时 ， 作 为 参考 来 对 完整 的 设计 进行 评价 。 

系统 需求 大 部 分 是 外 部 生成 的 系统 准则 。 它 们 可 能 来 自 于 范 争 、 销 售 观 点 、 
客户 和 需求、 产品 鳃 利 分 析 或 是 以 上 的 综合 。 系 统 需 求 很 少 是 简洁 的 或 是 明确 的 。 
事实 上 ， 和 需求 经 常 还 可 能 是 不 现实 的 :“ 我 要 它 快 , 我 要 它 便 宜 ， 我 立刻 就 
要 它 1” 

小 心地 分 析 需 求 表达 ， 并 花 足 够 的 时 间 了 解 市 场 情形 对 设计 师 来 说 很 重要 ， 
这 样 才能 判定 出 需求 所 表达 的 所 有 因素 及 这 些 因素 所 暗示 的 优先 级 。 设 计 师 在 需 
求 判 定 中 考虑 的 一 些 因 素 : 

。 与 原先 设计 或 是 已 发 布 标准 的 兼容 性 ; 
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原先 设计 的 重用 ; 
。 客户 需求 、 投 诉 ; 
。 销售 报告 ; 
成 本 分 析 ; 
元 争 设备 分 析 ; 

。 原先 产品 或 是 苋 争 产品 的 问题 报告 (可靠 性 )。 

设计 师 也 可 以 基于 一 些 在 类 似 系统 环境 还 未 使 用 过 的 新 技术 、 新 思想 或 是 新 
材料 来 引进 新 需求 。 

系统 规范 是 目标 系统 设计 的 量化 与 优先 准则 。 设 计 师 获得 需求 后 必须 形成 
最 终 系统 的 简洁 而 明确 的 说 明 集 。 设 计 师 可 能 不 知道 最 终 系 统 是 什么 样子 的 ， 
但 是 通常 脑 中 会 有 个 “稻草 人 ”的 设计 ， 它 似乎 可 提供 符合 规范 的 可 行 框架 。 
在 任何 有 效 设 计 过 程 中 ， 如 果 最 终 设 计 明 显 像 稻草 人 设计 的 话 着 实 会 令 人 大 吃 
一 尺 。 

规范 并 没有 完成 设计 过 程 的 任何 部 分 ， 它 只 是 对 过 程 进行 了 初始 化 。 现 在 就 
可 以 开始 组 件 和 方法 选择 、 替 代 人 研究 及 系统 成 分 的 优化 了 。 


1.7.2 设计 和 迭代 


设计 总 是 一 个 迭代 的 过 程 。 所 以 ， 如 何 开始 第 一 步 最 初 的 设计 是 一 个 很 明显 
的 问题 。 正 是 通过 这 最 初 的 设计 来 按照 设计 准则 进行 迭代 和 优化 。 为 了 我 们 的 目 
标 ， 定 义 了 几 种 基于 设计 阶段 的 设计 类 型 。 

初始 设计 ”在 其 他 性 能 和 成 本 准则 还 没有 考虑 的 时 候 ， 这 是 用 来 展示 符合 关 
键 需求 的 第 一 个 设计 。 例 如 ， 处 理 器 、 存 储 央 或 是 输入 /输出 (10) 应 该 在 尺 
寸 上 符合 优先 级 高 的 实时 性 约束 。 重 要 组 件 及 其 参数 需要 精心 选择 和 分 析 ， 以 便 
对 所 期 望 的 理想 性 能 和 成 本 有 个 好 的 认识 。 理 想 化 的 并 不 意味 着 就 是 不 切实 际 
的 ， 而 是 指 所 期 望 的 使 用 和 运算 面积 或 是 数据 带宽 容量 的 简化 模型 。 它 通常 是 个 
简单 的 线性 性 能 模型 ， 如 处 理 器 所 期 望 的 每 秒 百 万 条 指令 (Million Instructions 
Per Second, MIPS) 速率 。 

优化 设计 一 旦 基本 性 能 (或 面积 ) 需求 符合 要 求 且 基本 功能 确保 了 以 后 ， 
目标 就 变 成 最 小 化 成 本 ( 面积) 及 功 耗 或 是 完成 设计 所 需 的 设计 工作 量 。 接 着 
就 是 设计 过 程 中 的 迭代 步骤 。 设 计 过 程 第 一 步 是 使 用 高 保 真 工具 (模拟 、 实 验 
布局 等 ) 来 确保 初始 设计 确实 满足 了 设计 需求 与 规范 。 后 续 步 骤 是 根据 设计 准 
则 精练 、 完 成 并 改善 设计 。 
图 1.21 给 出 了 SoC 初始 设计 过 程 。 这 个 设计 在 细节 上 足以 创建 出 设计 的 组 
件 视图 及 对 组 件 期 望 性 能 的 相应 推测 。 在 这 一 步 ， 这 个 推测 必然 是 简化 了 的 且 参 
考 于 理想 化 的 组 件 视图 ( 见 图 1.22) 。 
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1. 了 解 功能 、 成 本 及 实时 要 求 。 
2. 确认 设计 必须 要 符合 的 关键 需求 。 
3. 基于 对 关键 需求 的 影响 ， 给 处 理 器 、 内 存 及 互联 组 件 的 选择 确定 优先 级 。 


4. 评估 关键 需求 是 否 已 满足 。 
5. 如 果 是 ， 那 么 初始 设计 已 完成 。 
6. 如 果 不 是 ， 那 么 尝试 选择 不 同 的 组 件 ， 再 回 到 第 3 步 。 





图 1.21 SoC 初始 设计 过 程 


理想 存储 器 
(访问 时 间 固 定 ) 
理想 互联 
(访问 时 间 固 定 并 且 带 宽 足够 ) 













n 个 根据 功能 进行 选择 的 理想 处 理 器 (P) 


图 1.22 理想 SoC 组 件 





系统 性 能 是 由 组 件 的 最 小 容量 所 限制 的 。 其 他 组 件 通 常 仅 是 在 关键 组 件 上 时 
现 一 个 延迟 来 进行 建 模 。 在 一 个 好 的 设计 中 ， 限 制 系统 性 能 的 组 件 才 是 最 昂贵 的 
组 件 。 系 统 处 理事 务 的 能 力 应 该 紧 跟 限制 组 件 的 能 力 。 通 常 ， 这 个 限制 组 件 就 是 
处 理 器 或 存储 器 复合 设备 。 

通常 ， 设 计 要 么 是 由 中 一 个 使 得 功能 和 成 本 变 得 很 重要 的 特定 实时 需求 ; 要 
么 是 由 人 成 本 -性 能 约束 下 的 功能 或 甜 吐 量 来 驱动 的 。 在 情况 中 中 ， 实 时 约束 是 
根据 O 考虑 所 提出 的 ， 处 理 器 -存储 需 -互联 系统 必须 符合 要 求 。LO 系统 决定 
了 性 能 ， 系 统 的 剩余 过 量 容量 通常 用 于 给 系统 增加 功能 。 在 情况 @C 中 ， 目 标 在 于 
最 小 化 成 本 的 同时 提高 任务 吞吐 量 。 吞 吐 量 是 由 受到 最 大 约束 的 组 件 所 限制 的 ， 
所 以 设计 师 必 须 充 分 了 解 折 中 点 。 在 这 些 设计 中 这 样 做 更 具 灵 活性 ， 而 且 相 应 地 
在 决定 最 终 设 计 方面 更 有 选择 性 。 

本 书 的 目标 在 于 通过 以 下 内 容 来 提供 用 于 决定 最 初 设计 的 方法 : 

(a) 描述 组 件 范围 一 一 处 理 器 、 存 储 器 及 互联 ， 可 用 于 SoC 构建 ; 

(b) 提供 各 种 应 用 领域 需求 的 实例 ， 如 数据 压缩 和 加 密 ，; 

(c) 阐明 初始 设计 或 报告 实现 如 何 能 符合 特定 需求 。 
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之 后 将 阐释 这 种 方法 ， 本 书 第 3 ~5 章 通过 组 件 成 分 来 涉及 (a) 部 分 ， 而 
在 本 书 第 6 前 涉 及 系统 配置 与 定制 方面 的 技术 。 

正如 原先 所 提 到 的 那样 ,设计 师 必须 优化 处 理 和 存储 方面 的 各 个 组 件 。 这 种 
优化 过 程 需要 大 量 的 模拟 。 而 通过 相关 网 站 来 提供 基本 的 模拟 工具 。 











1.8 系统 架构 及 其 复杂 性 


处 理 器 架构 与 系统 架构 的 基本 不 同 点 在 于 系统 增加 了 另外 一 层 复 杂 性 ， 并 且 
这 些 系 统 复杂 性 限制 了 成 本 节约 。 历 史上 ， 计 算 机 的 概念 就 是 单个 处 理 器 加 上 内 
存 。 如 果 这 种 概念 一 直 不 变 (还 在 板 卡 的 限度 内 ) ， 将 处 理 器 实现 在 一 个 或 多 个 
硅 片 上 都 没有 改变 设计 复杂 性 。 而 一 旦 芯片 密度 允许 标量 处 理 器 装 在 一 个 芯片 
E, 那么 复杂 性 问题 就 改变 了 。 

假设 需要 100 000 个 晶体 管 及 一 个 小 一 级 缓存 来 实现 一 个 32 位 流水 线 处 理 
器 ， 这 里 称 其 设计 复杂 性 大 小 为 一 个 处 理 器 单元 。 

如 果 需 要 实现 100 000 个 晶体 管 组 成 的 处 理 器 ， 增 加 的 片上 晶体 管 密度 不 会 
很 影响 设计 复杂 性 。 每 块 芯片 上 有 更 多 晶体 管 时 ， 在 增加 芯片 复杂 性 的 同时 ， 也 
简化 了 组 成 处 理 器 的 多 个 芯片 之 间 的 互联 问题 。 一 旦 将 单元 处 理 融 实现 在 单个 蕊 
片上 ,设计 复杂 性 问题 就 改变 了 。 而 在 这 之 后 随 着 晶体 管 密度 显著 地 增加 ， 也 会 
有 很 多 显而易见 的 处 理 需 延伸 策略 来 改善 性 能 : 

1) 增加 缓存 。 在 这 里 增加 缓存 存储 及 二 级 缓存 ， 因 为 随 着 缓存 变 大 ， 访 问 
时 间 就 变 慢 了 。 

2) 更 高 级 处 理 需 。 可 以 实现 超标 量 处 理 器 或 是 VLIW 处 理 器 ， 这 样 每 个 周 
期 就 可 以 执行 多 条 指令 。 此 外 ， 可 以 加 速 那些 影响 关键 路 径 延 迟 的 部 件 ， 尤 其 是 
浮 点 执行 时 间 。 10 000.0 




























































3) 多 处 理 器 。 可 以 实 ame 
现 多 处 理 器 (超标 量 ) 及 相 a Mop 
ZRET. AWERI S 
限制 只 有 内 存 访 问 时 间 及 其 是 "| a 
iens £ 多 处 理 器 ，SoC 
ni To z= lool 1 
这 些 做 法 造成 的 结果 就 a 小 而 有 限 
是 设计 复杂 性 明显 更 大 了 a ae 
( 见 图 1.23) 。 我 们 的 高 级 处 逐渐 强健 
理 器 能 有 数 百 万 晶体 管 而 不 eh 1985 ae i605 zi WE 2010 


是 100 000 晶体 管 级 的 处 理 年 份 
器 。 多 级 缓存 也 复杂 了 了， 这 图 1.23 设计 复杂 性 
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是 为 了 协调 (同步 ) 多 个 处 理 品 的 需要 ， 因 为 这 些 处 理 需 要 求 内 存 内 容 是 一 致 的 。 

为 了 管理 这 些 复杂 性 ， 重 用 是 一 种 显而易见 的 方法 。 所 以 ， 相 比 于 一 个 全 新 
的 更 高 级 的 单个 处 理 器 ， 在 一 个 芯片 上 重用 几 个 简单 处 理 融 设计 会 更 好 。 如 果 能 
够 选择 特定 的 处 理 吕 设计 来 适应 应 用 的 特殊 部 分 ， 上 述 方法 就 非常 正确 了 。 为 了 
让 这 种 方法 起 作用 ， 也 需要 有 力 的 互联 机 制 来 访问 各 种 处 理 器 与 内 存 。 

所 以 ， 当 应 用 确定 后 ，SoC 构建 包括 以 下 四 方面 : 

1) 多 个 (通常 是 ) 异 构 的 处 理 器 ， 每 个 专门 为 应 用 的 特定 部 分 而 工作 。 

2) 用 于 部 分 程序 存储 的 主 存 (通常 ) 外 加 ROM, 

3) 相对 简单 的 小 型 (单一 级 别 ) 缓存 结构 或 是 与 每 个 处 理 带 都 相关 的 缓冲 器 。 

4) 用 于 通信 的 总 线 或 开关 机 制 。 

尽管 SoC 构建 方法 在 技术 上 很 有 吸引 力 ， 但 是 它 存在 经 济 上 的 限制 和 影响 。 
考虑 到 处 理 融 及 其 互联 的 复杂 性 ， 如 果 将 实现 的 有 用 性 局 限于 特定 应 用 的 话 ， 要 
ZA (1) 确保 这 个 产品 能 有 很 大 的 市 场 ; BA (2) 通过 设计 重用 或 是 相似 技术 
找到 能 减少 设计 成 本 的 方法 。 




















1.9 SoC 产品 经 济 及 影响 


1.9.1 影响 产品 成 本 的 因素 


产品 的 基本 成 本 与 收益 取决 于 很 多 因素 : 技术 和 需求、 成本、 市 场 大 小 及 产品 
在 未 来 产品 市 场 的 影响 力 。 在 生产 成 本 之 外 还 有 些 其 他 成 本 问题 。 








最 大 的 固定 成 本 ， 并 且 其 在 通过 销售 获得 收入 之 前 就 得 开销 〈 见 图 1. 25 )。 
固定 成 本 可 变 成 本 





图 1.24 项 目 成 本 组 成 
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验证 与 测试 










固定 设备 


图 1.25 工程 (开发 ) 成 本 


在 生产 的 第 一 个 产品 完成 之 前 ， 设 计 一 个 新 世 片 无 论 如 何 都 需要 12 ~ 30 个 
月 的 开发 工作 ， 这 还 要 取决 于 其 复杂 性 。 即 使 是 一 个 中 等 规模 的 项 目 也 需要 多 达 
30 位 甚至 更 多 的 软 硬 件 工程 师 、CAD 设计 与 辅助 人 员 。 例 如 ， 一 篇 论文 中 写 道 
日 本 索尼 公司 的 情感 引擎 项 目 中 就 有 22 PRR, 然而， 他 们 的 薪水 及 间 
接 成 本 只 代表 了 总 开发 成 本 的 一 小 部 分 。 

非 工 程 固定 成 本 包括 制造 启动 成 本 、 库 存 成 本 、 初 期 市 场 与 销售 成 本 及 行政 
费用 。 市 场 成 本 包括 各 种 显而易见 的 事项 ， 如 市 场 调研 、 市 场 战 略 规划 、 定 价 研 
究 、 竞 争 分 析 等 ， 当 然 还 有 销售 计划 与 广告 成 本 。 一 般 行 政 (General and Ad- 
ministrative, G&A) “费用 ”的 概念 包括 成 比例 的 “前 台 ” 份 额 及 其 他 成 本 ， 而 
“前 台 ” 是 指 行政 管理 部 门 、 人 事 部 门 (人力 资 源 ) 、 财 务 部 门 。 

其 后 ， 在 生产 过 程 的 开始 阶段 ， 部 件 费用 仍然 很 高 。 边 际 生产 成 本 只 有 在 生 
产 大 量 部 件 之 后 才 会 接近 最 终 的 制造 成 本 。 

再 之 后 ， 产 品 部 件 制 造成 本 会 逐渐 接近 最 终 的 制造 成 本 。 在 此 期 间 ， 仍 然 需 
要 持续 不 断 的 开发 工作 来 延长 产品 周期 并 拓宽 其 市 场 适应 性 。 

所 生产 的 产品 将 会 产生 利润 吗 ? 从 原先 的 讨论 中 很 容易 就 可 看 出 成 本 是 如 何 
地 敏感 于 产品 周期 及 产品 数量 的 。 如 果 市 场 规律 或 是 市 场 竞 争 相当 激烈 并 催生 性 
能 扩充 的 竞争 系统 的 话 ， 产 品 周期 就 会 缩短 并 导致 所 交付 的 产品 少 于 预期 。 这 样 
一 来 就 会 导致 灾难 性 的 结果 ， 即 使 最 终 的 生产 成 本 能 控制 住 。 因 为 将 没有 足够 的 









































28 计算 机 系统 设计 ， 片上 系统 





产品 来 均 挫 固 定 成 本 以 确保 到 利 。 而 男 一 方面 ， 如 果 竞 争 不 激烈 ， 那 么 第 二 代 产 
品 的 开发 团队 就 能 够 成 功 地 强化 产品 并 维系 其 市 场 影响 力 ， 然 后 产品 就 能 成 为 公 
司 的 家 底 宝贝 之 一 ， 并 给 设计 者 和 股东 带 来 名 声 和 微笑 。 
1.9.2 给 产品 经 济 和 技术 复杂 性 建 模 : SoC 课程 

为 了 全 盘 考 虑 这 些 成 本 ,来 考量 一 个 通用 的 模型 一 产品 平均 单位 成 本 

(这 区 别 于 其 最 终生 产 成 本 ) : 
单位 成 本 = (项 目 成 本 )/( 单 位 数 ) 

项 目 成 本 仅 是 所 有 固定 成 本 与 可 变 成 本 的 总 和 。 用 一 个 常量 KK 来 表示 固定 
成 本 。 可 变 成 本 为 Kn， 其 中 是 单位 数 。 然 而 ,工程 成 本 、 销 售 成 本 及 市 场 
成 本 与 n 相关 却 必然 不 是 线性 的 。 

那么 用 这 样 一 项 来 表示 这 种 效果 : 0.1 信 的 K, 并 再 用 n 缓慢 地 增加 它 ， 如 
所 。 这 样 得 到 














产品 成 本 = K,+ 0.1 K, Vn+kKk, n (1.1) 

ABA, 用 式 (1.1) 来 说 明 产 品 设计 中 先进 技术 的 影响 。 将 一 个 1995 年 完成 
的 设计 与 一 个 2005 年 的 产品 成 本 更 低 的 复杂 设计 来 比较 。 将 K 固 定 ， 如 图 1.26 所 
示 ，1995 年 随 着 产品 产量 n 4.0 
增加 ， 单 位 成 本 获得 了 预期 
的 减少 。 但 是 该 图 也 显示 出 
如 果 扩 大 固定 成 本 (更 复杂 
的 设计 ) 10 倍 ， 即 使 将 单 
位 成 本 K, 削减 相同 的 量 ， 
2005 年 的 单位 产品 成 本 直到 
达到 很 大 的 产量 时 仍旧 很 
高 。 这 种 现象 对 市 场 巨大 的 
“通用 ”处 理 器 设计 来 说 或 500 1000 2000 100 000 
许 不 是 一 个 麻烦 ,但 对 面向 单位 数 
特殊 应 用 而 产量 有 限 的 SoC 图 1.26 1995 年 与 2005 年 产品 对 单位 成 本 的 影响 
设计 来 说 就 会 成 为 一 个 挑 
战 。 对 于 特殊 应 用 来 说 ， 越 有 针对 性 的 设计 就 越 高 效 ， 而 这 是 以 牺牲 通用 性 为 代 
价 的 ， 当 然 也 就 会 影响 产量 。 


1.10 ”应 对 设计 复杂 性 

















单位 成 本 























随 着 设计 成 本 与 复杂 性 增加 ， 物 理 产品 的 设计 最 优化 与 设计 成 本 之 间 存 在 一 
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个 基本 的 折 中 ， 如 图 1. 27 所 示 。 这 个 平衡 点 取决 于 n， 即 预期 要 生产 的 单位 数 。 
针对 设计 生产 力 问题 存在 着 好 几 种 处 理 方法 。 最 基本 的 方法 就 是 购买 预先 设计 的 
组 件 及 利用 可 重 构 设 备 。 








设计 时 间 


基本 
与 工作 量 物理 折 中 








A 


平衡 点 取决 于 单位 数 n 
图 1.27 设计 工作 量 必须 与 产量 平衡 


1.10.1 购买 IP 


如 果 设 计 目 标 是 产生 一 个 技术 优化 的 设计 ， 那 么 固定 成 本 就 会 很 高 ， 所 以 其 
成 果 必 须 具备 广泛 的 适用 性 。 而 男 一 种 方法 就 是 “重用 ” 现 有 设计 。 这 样 做 在 
特殊 处 理 技 术 的 细微 差别 方面 可 能 是 次 优 的 ， 但 是 却 能 显著 地 节省 设计 时 间 和 工 
作 量 。 这 种 向 第 三 方 购买 此 类 设计 被 称 为 IP 销售。 

IP 的 使 用 减少 了 设计 开发 的 风险 : 它 能 减少 设计 成 本 并 缩短 产品 上 市 时 间 。 
IP 的 成 本 通常 取决 于 容量 。 因 此 ， 采 用 IP 的 方法 是 在 减少 式 (1.1) P KE 
时 以 增加 天 为 代价 的 。 

专业 的 SoC 设计 总 会 使 用 多 种 不 同类 型 的 处 理 器 。 非 关键 性 的 及 专业 的 处 理 
器 是 作为 IP 购买 的 ， 并 集成 到 自己 的 设计 中 。 例 如 ，ARM7TDMA 就 是 一 款 通用 
授权 的 32 位 处 理 器 或 称 之 为 “核心 ”设计 。 一 般 来 说 ， 处 理 器 核心 能 以 各 种 方 
式 用 于 设计 和 授权 ， 如 表 1. 16 所 示 。 


表 1.16 可 用 处 理 器 核心 IP 类 型 

































































设计 类 型 设计 级 别 Hi | 

定制 硬 IP 物理 级 用 于 固定 的 工艺 ， 最 优 的 
综合 周 IP 门 级 于 很 多 工艺 ， 有 一 定 的 优化 
可 综合 软 IP 寄存 器 晶体 管 级 (Register Transfer Level, RTL) 于 任何 工艺 ， 非 最 优 

















BE IP 是 使 用 处 理 器 技术 中 所 有 可 用 特性 的 物理 级 设计 ， 包 括 电路 设计 及 物 
理 布局 。 很 多 模拟 IP 及 混合 信号 IP (如 SRAM、 阶 段 锁 相 环 ) 都 是 以 这 种 形式 
发 布 的 ， 这 样 能 确保 最 优 的 时 序 及 其 他 设计 特点 。 因 人 P 是 门 级 设计 ， 虽 给 设备 
定 了 尺寸 ， 但 对 很 多 采用 不 同 处 理 器 技术 的 实验 室 设备 来 说 很 合适 。 软 IP 是 地 


30 计算 机 系统 设计 ， 片 上 系统 





辑 级 设计 ， 具 有 可 综合 的 格式 ， 能 立即 适用 于 标准 芯片 技术 。 这 种 方法 允许 用 户 
改编 源 代 码 以 使 其 设计 适应 各 种 情形 

很 显然 ,三 商 的 设计 越 优 化 ， 通 常用 户 的 可 定制 性 就 越 差 ， 但 是 这 样 的 设计 
却 经 常 能 获得 很 好 的 物理 成 本 -性 能 折 中 。 在 定制 过 程 中 ， 由 于 设计 步骤 甚至 是 
产品 技术 本 身 需要 支持 用 户 定制 ， 因 此 存在 潜在 的 性 能 -成 本 - 功 耗 开销 。 此 外 ， 
定制 设计 也 需要 再 验证 以 确保 其 正确 性 。 当 前 的 技术 ， 如 接 下 来 描述 的 重 构 技 
术 ， 都 是 致力 于 最 大 化 后 期 定制 的 优点 ， 如 减少 风险 及 缩短 上 市 时 间 。 同 时 ， 它 
们 还 将 与 之 相关 的 缺点 最 小 化 ， 如 通过 引进 电路 的 非 可 编程 的 块 来 支持 如 整数 乘 
法 之 类 的 常见 操作 ， 这 种 电路 块 比 可 重 构 资源 更 高 效 ， 但 是 却 不 如 其 灵活 。 


1.10.2 BY 


重 构 这 个 词 是 指 通 过 很 多 方法 来 让 同一 块 电路 能 在 很 多 应 用 中 重用 。 可 重 构 
设备 也 可 被 看 成 是 一 种 购买 的 IP 类 型 ， 其 制造 成 本 和 风险 都 消除 了 ， 然 而 其 在 
支持 用 户 定 制 方面 会 提高 单位 成 本 。 换 句 话 说， 采用 可 重 构 设 备 是 在 减少 式 
(1.1) 中 瓦 的 同时 以 增加 天 为 代价 的 。 

这 种 方法 中 最 著名 的 例子 当 属 FPGA 技术 了 。 一 个 FPGA 由 大 量 的 单元 阵列 
组 成 。 每 个 单元 包含 一 个 小 查找 表 、 一 个 触发 器 ,还 可 能 有 个 输出 选择 器 。 这 些 
单元 由 可 编程 连 线 连接 在 一 起 ， 使 得 阵列 之 间 具 有 灵活 的 路 由 通路 ( 见 图 1.28)。 
任何 逻辑 功能 都 可 以 通过 在 FPGA 上 配置 查找 表 与 互联 线 来 实现 。 因 为 一 个 阵列 能 
FH 100 000 个 单元 组 成 ， 所 以 很 容易 就 能 定义 一 个 处 理 器 。 实 现 这 种 基于 FPGA 的 
软 处 理 器 的 一 个 明显 缺点 就 在 性 
能 -成 本 - 功 耗 方面 。 当 然 ， 这 种 方 
法 还 是 有 以 下 很 多 优点 的 : 

1) 电路 制造 成 本 随 着 时 间 
呈 指 数 级 增长 。 因 此 ， 除 非 大 量 
制造 的 芯片 ， 否 则 就 不 划算 。 而 
FPGA 本 身 是 通用 设备 ， 因 而 被 
期 望 可 以 大 量 制 造 。 

2) 相 比 于 设计 一 个 用 于 加 
工 的 芯片 ，FPGA 实现 的 设计 时 
H, FPGA 实现 有 很 多 可 用 
的 设计 扩展 库 。 在 需要 缩短 上 市 
时 间 相 当 关 键 的 时 代 ， 这 样 做 对 
于 设计 尤为 重要 。 

3) FPGA 可 以 快速 搭建 要 制 图 1.28 FPGA 
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造 的 电路 原型 。 在 这 种 方法 中 ， 根 据 设计 计划 将 一 个 或 多 个 FPGA 配置 起 来 模拟 
它 ， 这 是 一 种 “在 线 仿真 ”形式 。 在 其 上 运行 程序 然后 就 可 以 检测 到 设计 错 
误 了 。 

4) FPGA 的 可 重 构 性 能 方便 系统 升级 ， 这 将 有 助 于 提高 产品 的 市 场 存 活 时 
间 。 这 种 能 力 对 于 那些 新 功能 或 新 标准 快速 涌现 的 应 用 来 说 尤为 有 价值 。 

5) FPGA 能 通过 配置 先 适 应 部 分 任务 ， 然 后 再 配置 来 适应 其 余 任 务 ( 称 为 
“运行 时 配置 " ) 。 这 使 得 用 于 特定 运算 的 特殊 功能 部 件 能 适应 环境 变化 。 

6) 在 很 多 计算 敏感 的 应 用 中 ，FPGA 能 通过 配置 成 为 高 效 的 脉动 运算 阵列 。 
由 于 每 个 FPGA 单元 有 一 个 或 多 个 存储 元 件 ， 能 以 合适 的 粒度 进行 流水 线 运算 。 
这 样 能 提供 一 个 巨大 的 运算 带宽 ， 在 选 定 的 应 用 上 能 产生 极 大 的 加 速 。 某 些 设 
备 !55 就 是 将 常规 处 理 需 与 FPGA 结合 起 来 的 ， 如 Stretch S5 软件 配置 的 处 理 器 。 

在 高 效 SoC 设计 中 ， 重 构 与 FPGA 扮演 了 很 重要 的 角色 。 本 书 第 2 章 将 深入 
探讨 这 些 内 容 。 














1.11 总 结 

构建 现代 处 理 器 或 目标 应 用 系统 是 一 项 复杂 的 事业 。 将 数 百 万 晶体 管 集成 在 
单个 芯片 上 的 技术 在 带 来 很 大 优点 的 同时 也 带 了 代价 ， 这 种 代价 不 是 硅 本 身 而 是 
为 了 实现 和 支持 产品 而 需要 做 大 量 的 设计 工作 。 

SoC 设计 存在 很 多 方面 的 内 容 ， 如 高 级 描述 、 编 译 技术 及 本 章 没 有 提 到 的 设 
计 流 程 。 这 些 内 容 以 后 会 涉及 。 

在 接 下 来 的 章节 ， 首 先 将 进一步 分 析 技 术 方 面 的 基本 权衡 点 : 时 间 、 面 积 、 
功 耗 及 可 重 构 能 力 ; 然后 ， 将 分 析 组 成 系统 的 组 件 的 一 些 细 节 ， 这 些 组 件 包括 处 
理 器 、 缓 存 、 存 储 器 及 将 它们 互联 的 总 线 或 开关 ; 接着 ， 从 用 户 定制 和 可 配置 性 
的 角度 来 考虑 设计 与 实现 方面 的 问题 ， 紧 随 其 后 的 是 关于 SoC 设计 流程 及 应 用 研 
究 的 讨论 ; 最后， 将 会 介绍 未 来 SoC 技术 方面 所 要 面 对 的 一 些 挑战 。 

本 书 的 目标 在 于 帮助 系统 设计 师 辨 别 最 高 效 的 设计 选择 及 通过 挖掘 技术 优势 
来 管理 设计 复杂 性 的 机 制 。 














1.12 习题 


1. 假设 图 1.18 所 示 的 TLB 有 256 项 (直接 寻 址 ) 。 如 果 虚 拟 地址 是 32bit， 
实际 内 存 有 512MB， 页 大 小 是 4KB， 夯 出 一 个 TLB 项 的 可 能 布局 。 图 1. 18 所 示 
的 用 户 ID 的 作用 是 什么 ? 如果 和 忽略 它 会 有 什么 后 果 ? 

2. 讨论 进行 TLB 地 址 转换 时 可 能 有 哪些 安排 。 
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3. 查找 一 个 真实 的 VLIW 指令 格式 。 描 述 在 使 用 应 用 时 单条 指令 的 格式 及 
其 对 程序 的 约束 。 

4. 查找 一 条 真实 的 用 于 矢量 ADD 的 矢量 指令 。 摘 述 该 指令 的 格式 。 反 复 进 
行 向 量 加 载 和 矢量 存储 操作 。 试 问 矢 量 指令 是 否 允 许 重 用 执行 ? 并 解释 原因 。 

5. 对 于 图 1. 9 所 示 的 流水 线 处 理 器 ， 假 设 指令 要 在 WB 结束 时 将 控制 代码 
(Condition Code，CC。 能 被 其 后 的 分 支 指令 用 于 测试 ) EM, HSH 是 条 件 
分 支 指令 。 在 没有 额外 硬件 支持 的 条 件 下 ， 试 问 分 支 成 功 与 分 支 失 败 情 况 下 执行 
SHS 时 的 延迟 分 别 是 多 少 ? 

6. 假设 有 四 个 不 同 的 处 理 器 ， 每 个 都 处 理 某 个 应 用 的 25% 。 如 果 将 其 中 两 
个 处 理 器 速度 提高 10 倍 ， 那 么 总 体 应 用 加 速 是 多 少 ? 

7. 假设 有 四 个 不 同 的 处 理 器 ,但 是 除了 某 一 个 以 外 其 他 处 理 右 都 受 限于 总 
线 。 如 果 将 总 线 速度 提高 3 倍 ， 并 且 假 设 处理 器 性 能 也 同比 例 提高 ， 那 么 整个 应 
用 的 加 速 是 多 少 ? 

8. 对 于 图 1. 19 所 示 的 流水 线 处 理 器 ， 假 设 每 条 指令 的 缓存 失效 率 是 0. 05 
HÆRGER Æ 20 个 时 钟 周期 。 那 么 CPI 是 多 少 ? 在 此 忽略 其 他 延迟 ， 如 分 支 
延迟 。 

9. 设计 验证 是 SoC 设计 中 一 个 很 重要 的 方面 。 查 找 几 种 专门 针对 SoC 设计 
的 验证 方法 。 并 从 小 型 SoC 厂商 的 角度 评价 这 些 方法 。 

10. 查找 〈 如 从 网 上 ) 两 种 最 新 的 VLIW DSP。 判 别 每 个 时 钟 周期 发 射 的 最 
大 操作 数 及 操作 的 组 成 〈 整 数 操作 数目 、 浮 点 操作 数目 、 分 文 操 作 数目 等 ) 。 还 
有 规定 的 最 高 性 能 (每 秒 指令 数 ) 是 多 少 ? 这 个 数 是 怎么 计算 出 来 的 ? 

11. 查找 (如 从 网 上 ) 两 种 最 新 的 大 型 FPGA 部 件 。 判 别 其 逻辑 块 数目 〈 即 
CLBS) 、 最 小 时 钟 周期 及 允许 的 最 大 功 耗 。 还 有 其 支持 什么 样 的 软 处 理 器 ? 














© CLB: Configurable Logic Block， 可 配置 逻辑 块 。 


第 2 童 心 片 基础 : 时 间 、 面 积 、 功 耗 、 
可 靠 性 和 可 配置 性 


2.1 引言 


对 于 任何 系统 设计 ， 权 衡 成 本 和 性 能 都 是 最 基本 的 。 不 同 的 设计 ， 源 于 对 性 
价 比 的 不 同 选择 ， 或 者 对 成 本 和 性 能 本 质 的 不 同 假设 。 

设计 创新 的 驱动 力 在 于 飞速 进步 的 工艺 技术 。 美 国 半导体 行业 协会 (Semi- 
conductor Industry Association，SIA) 定期 做 出 技术 前 沿 的 规划 ， 名 为 SIA 蓝图 ， 
这 越 来 越 成 为 了 新 的 芯片 设计 的 基础 和 前 提 。 当 SIA 蓝图 做 出 改变 ， 达 到 并 保持 
芯片 的 先进 性 就 变 得 越 来 越 艰难 。 表 2. 1 给 出 的 SIA 蓝图 是 对 特定 年 份 的 高 性 能 
微 处 理 器 规划 指南 的 总 结 "1 。 随 着 光照 技术 水 平 的 提高 ， 晶 体 管 越 来 越 小 。 加 
工 工 艺 限定 了 晶体 管 门 的 最 小 宽度 。 表 2.1 用 纳米 (nm) 来 指 代 加 工 工 艺 ; 而 
老 几 代 的 加 工 工艺 往往 用 微米 (um) 来 描述 。 往 前 几 代 分 别 是 65mm, 90nm , 
0. 13um 和 0. 18hm。 





























表 2.1 SIA 蓝图 





























年 W 2010 2013 2016 
工艺 /nm 45 32 22 

晶 圆 尺寸 ， 直 径 /em 30 45 45 

缺陷 密度 上 (个 [em2 ) 0. 14 0. 14 0. 14 
微 处 理 器 芯片 尺寸 /cm? 1.9 2.6 2.6 
芯片 频率 /GHz 5.9 7.3 9.2 
晶体 管 数 密度 /( 百 万 个 /cm2 ) 1203 3403 6806 
最 高 性 能 下 最 大 功 耗 /W 146 149 130 











2.1.1 设计 的 权衡 

随 着 芯片 频率 的 增长 ， 尤 其 是 晶体 管 密度 的 增长 ， 设 计 者 必须 能 够 在 快速 变 
化 的 工艺 变化 环境 中 找到 最 好 的 权衡 。 而 由 于 功 耗 需求 ， 芯 片 频率 已 经 成 为 一 个 
不 得 不 考虑 的 问题 。 


34 计算 机 系统 设计 ， 片 上 系统 





在 做 最 基本 的 芯片 权衡 时 ， 有 五 点 需要 考虑 。 第 一 是 时 间 ， 包 括 事务 或 指令 
周期 的 划分 、 用 于 加 速 执行 指令 的 基本 流水 线 机 制 和 优化 程序 执行 的 参数 周期 。 
第 二 个 是 面积 。 由 于 特定 功能 而 导致 的 面积 开销 ， 是 权衡 架构 的 另外 一 个 重要 方 
面 。 第 三 是 功 耗 。 功 耗 既 影响 性 能 也 影响 实现 。 需 要 小 面积 实现 的 指令 系统 比 需 
要 更 大 面积 来 实现 的 指令 系统 有 价值 的 多 一 一 虽然 后 者 当然 会 有 与 之 相 匹配 的 更 
好 的 性 能 。 可 保持 的 性 价 比 是 大 部 分 设计 决策 的 基础 。 第 四 是 可 靠 性 ， 在 处 理 深 
亚 微米 影响 时 ， 可靠 性 开始 变 的 重要 。 第 五 是 可 配置 性 。 可 配置 性 为 设计 者 在 权 
衡 非 一 次 性 设计 和 一 次 性 设计 费用 方面 提供 了 一 个 机 会 。 

SoC 设计 的 五 大 问题 

其 中 的 四 个 问题 是 很 明显 的 。 世 片面 积 〈 制 造成 本 ) 和 性 能 ( 深 受 周期 的 
影响 ) 是 基础 SoC 设计 考虑 的 重要 方面 。 功 耗 作 为 一 个 设计 约束 也 开始 轿 露 头 
角 。 工 艺 缩减 了 特征 尺寸 ， 所 以 稳定 性 也 将 会 成 为 设计 考虑 的 主要 问题 。 

第 五 个 问题 是 可 配置 性 ， 它 并 不 是 一 个 非常 明显 而 需要 立即 就 去 思考 的 问 
题 。 然 而 ， 就 像 本 书 第 1 章 所 讲 的 ,在 SoC 设计 中 ， 一 次 性 设计 费用 是 能 够 主导 
整个 项 目 成 本 的 。 对 于 SoC 设计 来 讲 ， 通 过 可 配置 性 来 做 出 灵活 的 设计 是 非常 重 
要 的 。 这 样 ， 既 可 以 扩大 市 场 ， 又 可 以 降低 每 一 部 分 的 成 本 。 

可 编程 性 支持 现场 编程 ， 并 且 提 供 了 “应 用 定制 的 制造 标准 化 ”特征 。 集 
成 电路 的 标准 化 和 定制 化 之 间 的 可 复 用 的 性 质 是 由 Makimoto 发 现 的 0 ， 众 所 周 
MIE) Makimoto 曲线 ， 如 图 2.1 所 示 。 
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应 用 定制 化 





为 电视 、 计 算 
机 定制 的 大 规 电路 
模 集成 电路 





用 户 化 











图 2.1 Makimoto 曲线 
关于 复杂 度 ， 有 很 多 种 性 价 比 权衡 。 例 如 ， 当 特征 尺寸 固定 时 ， 面 积 可 以 根 


据 性 能 (用 执行 时 间 7 来 表示 ) 来 权衡 。 大 规模 集成 电路 复杂 度 的 理论 表明 ， 
对 于 处 理 器 设计 存在 一 个 4 x7" 的 边界 范围 ， 并 有 日 n 往往 落 在 1 ~2' 也 可 以 
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用 边界 范围 P x7’ 来 权衡 时 间 了 和 功率 P。 处 理 器 设计 权衡 如 图 2.2 所 示 ， 在 处 
理 器 设计 过 程 中 可 能 的 权衡 方面 包括 面积 、 时 间 和 功率 ” 。 在 这 个 三 维 空间 中 ， 
嵌入 式 处 理 器 和 高 端 处 理 器 在 不 同 的 设计 域 中 得 以 实现 。 功 率 -面积 轴线 主要 用 
于 典 入 式 处 理 器 的 优化 ， 同 时 时 间 轴 线 主要 用 于 高 端 处 理 器 。 

本 章 主 要 解决 在 设计 中 需 
要 权衡 的 问题 。 首 先是 时 间 问 A 











题 。 性 能 的 最 根本 衡量 标准 是 A 
完成 系统 任务 和 功能 所 需要 的 P; 
时 间 。 这 取决 于 两 点 : 一 是 处 l 高 性 能 服务 器 
理 器 存储 器 的 组 织 及 大 小 ， 二 1 ee 
是 它们 的 基本 频率 或 者 时 钟 频 PT = / 

率 。 第 一 个 问题 将 在 本 书 第 3、 / 一 一 一 一 一 一 > 面积 4 
4 章 解 决 。 本 章 只 看 基本 的 处 理 
器 周期 一 一 个 周期 中 发 生 了 pa 

多 少 延 时 ， 指 令 在 执行 过 程 中 a R 
TERR REAM BER 7 

来 介绍 一 个 成 本 (面积 ) 模型 “ 5 

来 协助 权衡 制造 过 程 中 的 成 本 。 图 2.2 处理 器 设计 权衡 


这 个 模型 仅 限 于 片上 和 处 理 带 

类 型 的 权衡 , 但 是 它 诠释 了 一 种 系统 设计 的 模型 。 正 如 本 书 第 1 草 所 提 到 的 ， 硅 
片 成 本 通常 是 总 成 本 中 很 小 的 一 部 分 ， 但 是 对 它 的 了 解 仍 然 是 很 有 必要 的 。 功 耗 
一 般 是 由 周期 时 间 和 设计 的 总 大 十 及 它 的 需 件 所 决定 的 。 在 很 多 SoC 设计 中 ， 它 
已 经 成 为 了 主要 限制 。 最 后 ， 考 虑 可 靠 性 和 可 配置 性 及 它们 对 成 本 和 功能 的 


影响 。 
2.1.2 需求 和 规格 


五 个 基本 的 SoC 权衡 项 为 分 析 SoC 需求 提供 了 一 个 框架 ， 它 可 以 转化 成 规 
格 。 成 本 需求 和 市 场 规模 可 以 转化 成 芯片 成 本 和 工艺 。 耐 用 性 和 重量 限制 的 需要 
会 影响 热量 损耗 ， 可 以 转化 成 功 耗 范围 和 时 钟 周期 限制 。 对 于 一 个 特定 的 设计 ， 
任何 一 个 权衡 标准 都 有 一 个 最 高 优先 级 。 看 以 下 几 个 例子 : 

。 高 性 能 系统 将 以 成 本 和 功率 (其 至 可 能 也 有 可 配置 性 ) 作为 代价 使 得 时 
间 最 优化 。 

© 低 成 本 系统 优化 芯片 的 成 本 、 可 配置 性 和 设计 的 重用 性 (也 可 以 有 低 功 耗 )。 

。 可 携带 系统 强调 低 功 耗 ， 因 为 能 量 提供 决定 了 系统 的 重量 。 所 以 这 样 的 
系统 如 手机 等 ， 通 常 有 实时 性 的 限制 ， 而 功能 可 以 忽略 。 
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。 应 用 在 飞机 或 者 其 他 安全 主导 的 舱 入 式 系统 强调 可 靠 性 ， 功 能 和 适用 寿 
命 (可 配置 性 ) 是 第 二 个 重要 的 考虑 因素 。 

。 游戏 系统 强调 成 本 一 一 尤其 是 产品 成 本 ， 第 二 是 性 能 ， 对 可 笔 性 的 考虑 
很 少 。 

在 需求 方面 ，SoC 设计 者 需要 认真 地 考虑 每 一 个 权衡 项 ， 并 确定 与 之 相 一 臻 
的 规格 。 本 章 会 将 SoC 需求 因素 转换 成 相应 规格 并 开始 学 习 优化 设计 选项 ， 同 时 
也 会 有 对 系统 组 成 的 本 质 理 解 ， 这 些 在 后 面 章 节 也 会 看 到 。 


2.2 周期 





时 间 的 概念 受到 了 处 理 器 设计 者 的 高 度 关注 。 它 是 性 能 的 最 基本 度量 标准 ; 
然而 ， 将 行为 分 解 成 周期 并 且 降 低 周期 数目 和 周期 时 间 很 重要 ， 但 并 非 是 精确 的 
科学 。 

行为 分 解 成 周期 的 方式 是 很 重要 的 。 一 个 常见 问题 就 是 一 个 基本 行为 需要 意 
料 之 外 的 “额外 ”周期 ， 如 缓存 不 命中 。 总 体 而 言 ， 对 于 周期 选择 和 将 指令 执 
行 分 解 成 为 周期 的 理论 基础 有 限 。 很 多 设计 都 是 基于 语 用 的 。 

在 这 一 部 分 ， 将 介绍 一 些 指 令 划 分 的 技术 ， 也 就 是 将 指令 执行 时 间 划 分 为 可 
控 和 固定 时 间 的 技术 。 在 流水 线 处 理 器 中 ， 数 据 流 过 每 一 阶段 和 项 目 流 过 装配 线 
几乎 一 样 。 在 每 一 阶段 的 结束 ， 一 个 结果 传递 给 后 面 一 阶段 ， 同 时 一 个 新 的 数据 
流入 进来 。 在 一 定 限制 之 内 ， 周 期 越 短 ， 流 水 线 就 越 高 效 。 然 而 ， 分 解 的 过 程 是 
有 开销 的 ， 而 且 最 小 周期 时 间 是 受 开销 控制 的 。 简 单 的 周期 模型 可 以 优化 流水 的 
阶段 数目 。 
流水 线 处 理 器 

曾经 ， 处 理 器 中 流水 线 概念 被 认为 是 一 种 先进 的 处 理 器 设计 技术 。 的 确 ,， 在 
过 去 的 几 十 年 里 ， 流 水 线 已 经 成 为 了 任何 一 个 处 理 器 和 控制 器 的 主要 部 分 。 它 是 
在 决定 处 理 器 或 系统 的 周期 和 执行 时 一 个 最 基本 的 考虑 方面 。 

周期 和 流水 阶段 数目 之 间 的 权衡 将 会 在 流水 线 优化 部 分 探讨 。 


2.2.1 周期 的 定义 


周期 〈 时 钟 的 ) 是 处 理 信 息 的 基本 时 间 单 元 。 在 同步 系统 中 ， 时 钟 频率 的 
值 是 固定 的 ， 周 期 时 间 是 由 机 融 中 频繁 发 生 操 作 的 最 大 完成 时 间 决 定 的 ， 如 加 法 
器 或 寄存 器 数 的 传递 。 这 个 时 间 必 须 足 够 用 于 一 个 数据 存 到 一 个 特定 目的 寄存 器 
( 见 图 2.3) 。 小 频率 操作 需要 更 多 的 时 间 和 周期 来 完成 。 

一 个 周期 起 始 于 指令 译 码 器 〈 基 于 当前 的 指令 操作 码 ) 为 系统 寄存 带 指 定 
一 个 数值 。 这 些 控制 数值 将 一 个 特定 寄存 器 的 输出 与 另 一 寄存 器 或 者 加 法 器 或 者 
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结果 传 给 目标 
位 置 


控制 总 线 有 效 


给 ALU 送 数 将 数据 存 入 寄存 器 
图 2.3 一 周期 可 能 的 操作 队列 


相似 的 目标 联系 起 来 。 ee 
到 目标 寄存 器 。 最 后 ， 经 过 一 段 合适 的 建立 时 间 之 后 ， 所 有 的 寄存 顺 通 过 时 钟 系 
统 的 边沿 或 脉冲 进行 采样 

在 同步 系统 中 ， 周 期 时 间 是 由 周期 内 最 坏 情况 下 的 每 一 步 或 动作 的 时 间 之 和 
决定 的 。 然 而 ,时 钟 本 身 可 能 不 会 在 预期 的 时 间 到 来 (由 于 传输 或 加 载 的 影 
响 ) 。 偏 离 期 望 时 钟 到 来 的 最 大 时 间 称 为 时 钟 乍 斜 。 

在 异步 系统 中 ， 周 期 时 间 是 简单 的 由 事件 或 操作 的 完成 来 决定 的 。 一 个 完整 
信息 生成 之 后 ， 才 允许 下 一 个 操作 开始 。 由 于 完成 信号 开销 和 流水 时 序 的 来， 蜡 
步 设计 通 常 并 不 用 于 流水 线 处 理 带 。 


2.2.2 流水线 优化 


对 于 流水 线 处 理 器 设计 者 来 讲 ， 最 基本 的 优化 就 是 将 流水 线 并 行 分 解 。 
分 解 的 数量 越 大 ， P 然而 ， 每 个 新 的 分 割 都 会 带 来 时 钟 开 
销 ， 这 将 对 性 能 有 不 利 的 影响 。 

如 果 和 忽略 行为 分 割 与 整数 个 周期 匹配 的 问题 ， 可 以 确定 一 个 优化 周期 时 间 
At 和 之 后 简单 流水 线 处 理 器 的 分 割 层 次 。 

假设 没有 进行 流水 分 割 时 执行 一 条 指令 的 总 时 间 是 了 (单位 为 ns) ( 见 图 
2.4a) 。 那 么 问题 是 考虑 时 钟 和 流水 ， 找 到 最 优 的 分 割 数 目 $。 通 过 一 次 分 割 的 
理想 延 时 是 T/S = 也. 。 与 每 个 分 割 相关 的 是 分 割 开 销 。 这 个 时 钟 开销 时 间 ( 纳 
秒 级 ) 包括 时 钟 在 人 和 任意 一 个 寄存 器 所 需 的 建立 和 保持 信号 的 时 间 。 

那么 ， 流 水 线 处 理 器 的 真正 周期 时 间 (JILE 2.40) 就 是 理想 的 周期 时 间 T/S 
加 上 时 钟 开销 。 
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a) | 
Vall | | 1 | m 7S | 
b) IC} | | 1 | i | | 
， 时 钟 开销 (C ) 
© us = Im EER 
时 钟 开销 
d) | 
| 结果 可 用 
阻塞 eae PE | | 
B ao ma | 
周期 延迟 一 开始 


图 2.4 最 优 流水 线 
a) 无 时 钟 指令 执行 时 间 7 b) 7 被 分 割 成 $ 段 (每 段 需 要 时 钟 开销 C) 
c) 时 钟 开销 和 它 对 周期 时 间 的 影响 IVS d) 流水 组 涩 的 影响 (也 称 流 水 中 断 ) 











在 理想 化 的 流水 线 处 理 器 中 ， 如 果 没 有 码 延 迟 ， 指 令 是 以 每 周期 一 条 的 频率 
进行 的 ， 但 延迟 是 会 发 生 的 主要 是 由 于 猜测 错误 和 不 期 望 的 分 支 造成 的 ) 。 候 
设 这 些 中 断 发 生 的 概率 是 5b 并 导致 9$-1 条 正 准 备 进入 或 者 已 经 进入 流水 线 的 指 
令 失 效 (图 2.4 给 出 了 一 个 最 坏 情 况 的 阻塞 )。 ee 有 不 
同 的 影响 ， 但 是 这 个 简化 模型 诠释 了 中 断 对 性 能 的 影响 。 

考虑 流水 中 断 ， 处 理 絮 性 能 











性 能 | 令 / 周 期 
Fit G 可 以 定义 为 
WEAab 
G= Ea, 8 


TCS-1)5)™ Fre, 


如 果 找 到 S， 使 得 
dG 
ds 
那么 就 找到 了 5S,,， 最 优 的 流水 分 割 数目 为 


_ /1-06)7 
S opt F bC 


一 旦 初始 5 确定 ， 总 指令 执行 延迟 (Tua) 为 
=7T+5x (时钟 开 销 ) =T+ SC 


=0 





Tias tr 
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或 S(T,, +S) =SAt 

最 终 ， 计 算出 用 每 秒 钟 执行 百 万 指令 数 来 表示 的 吞吐 性 能 。 

假设 7=12.0ns, b=0.2, C=0.5ns, BA S, =10 段 。 

如 上 确定 的 这 个 5S, 是 过 分 简化 了 的 ， 并 没有 具体 考虑 函数 单元 不 能 被 随意 
分 制 ， 必 须 遵 守 整 数 周期 边界 等 。 尽 管 如 此 ， 确 定 5,, 可 以 起 到 设计 起 始点 的 作 
用 ， 也 可 以 在 其 他 经 验 性 的 优化 设计 方面 作为 重要 的 检查 。 

在 此 之 前 的 讨论 中 ， 只 考虑 基于 性 能 基础 上 的 流水 段 数目 $。 每 当 新 的 流水 
段 被 引进 ， 就 会 增加 额外 的 成 本 ， 这 并 没有 作为 分 析 的 因素 。 每 个 新 的 流水 段 都 
需要 额外 的 寄存 器 和 时 钟 硬 件 。 因 此 ， 最 优化 流水 段 数目 S。, 理 应 被 理解 为 一 个 
特定 处 理 器 能 够 使 用 的 流水 段 数目 可 能 的 上 限 值 。 


2.2.3 性 能 


较 高 的 时 钟 频率 加 上 较 少 的 流水 段 不 一 定 能 够 产生 更 好 的 性 能 。 的 确 ， 考 虑 
到 延 时 缩放 问题 ， 会 立即 问 到 ， 规 划 的 时 钟 频 率 是 如 何 得 到 的 。 有 两 个 基本 要 素 
可 以 提高 时 钟 频率 : 中 提高 对 时 钟 开 销 的 控制 ; @ 在 流水 线 种 增加 流水 段 数目 。 
图 2. 5 给 出 了 一 个 周期 内 门 延 迟 ， 说 明了 流水 段 的 门 延 迟 已 经 显著 减少 了 约 4/5, 
数据 源 于 单元 的 标准 门 延迟 。 这 个 标准 门 有 一 个 输入 并 且 驱 动 了 四 个 相似 的 门 作 
为 输出 。 这 个 延迟 叫做 四 扇 出 (Fan-Out of Four, F04) 门 延迟 。 
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图 2.5 一 个 周期 内 门 延迟 (F04) 





低 时 钟 开 销 (small C) 可 能 会 减 小 流水 段 长 度 ， 但 性 能 并 不 一 定 相应 的 提 
高 ， 除 非 也 降低 流水 阻塞 率 上。 为 了 达到 高 时 钟 频率 ， 处 理 器 也 需要 使 用 大 量 的 
分 文 表 缓冲 区 和 分 支 矢 量 预 测 表 ， 通 过 这 些 分 支 来 显著 降低 延迟 。 然 而 ， 阻 塞 也 
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可 能 来 自 于 缓存 不 命中 ， 这 就 需要 另外 一 种 方案 : 多 层次 、 超 大 容量 的 片上 组 
存 。 通 常 这些 缓 存 结构 占 了 芯片 面积 的 80% ~ 90% 。 在 提高 性 能 方面 ， 底 部 的 
处 理 器 远 没 有 提高 缓存 存储 系统 的 效率 重要 。 


2.3 芯片 面积 和 成 本 


周期 时 间 、 机 器 结构 和 存储 配置 决定 了 机 器 的 性 能 。 与 确定 总 成 本 相 比 ， 确 
定性 能 相对 更 直接 一 些 。 

好 的 设计 ， 是 在 特定 目标 性 能 基础 之 上 得 到 最 优化 的 性 价 权 衡 的 。 这 也 决定 
了 处 理 需 设计 的 质量 。 

这 里 ， 就 来 看 看 制造 一 个 系统 时 由 芯片 面积 因素 决定 的 边际 成 本 。 当 然 ， 系 
统 设计 者 也 必须 意识 到 芯片 面积 的 固定 成 本 和 其 他 不 同 的 成 本 所 带 来 的 明显 副 作 
用 。 例 如 ,设计 复杂 度 的 显著 上 升 会 直接 影响 它 的 服务 能 力 、 文 件 编制 成 本 
(Documentation Cost) 或 者 硬件 走 加 市 场所 需要 的 精力 和 成 本 。 即 使 无 法 准确 量 
化 它们 的 影响 程度 ， 但 这 些 影响 因素 必须 牢记 于 心 。 


2.3.1 处 理 器 面积 


SoC 的 尺寸 一 般 在 每 边 10 ~ 1Smm。 芯 片 是 从 一 个 更 大 的 直径 30cm (24 
12in8) 左右 的 晶片 上 做 出 来 的 。 表 面 看 上 去 似乎 可 以 简单 地 通过 扩大 芯片 面 
耻 ， 使 得 每 个 晶 圆 上 产生 更 少 的 芯片 ， 那 么 这 些 更 大 的 芯片 就 可 以 很 容易 地 容纳 
设计 者 所 和 希望 的 任何 功能 。 不 幸 的 是 ， 唱 圆 和 工艺 都 没有 达到 那么 高 的 水 平 。 在 
唱 圆 表面 ， 缺 陷 随 机 发 生 〈 见 图 2.6)。 大 的 芯片 要 求 在 其 区 域 范围 内 不 能 有 缺 
陷 。 如 果 世 片 相 对 于 特定 工艺 面积 太 大 ， 那 么 成 品 率 就 会 很 小 或 者 为 零 。 图 2.7 
给 出 了 成 品 率 和 芯片 面积 的 关系 。 

好 的 设计 并 不 需要 有 最 大 的 成 品 率 。 将 设计 面积 降低 到 某 个 特定 值 仅 会 对 成 
品 率 有 边际 影响 。 另 外 ， 小 的 设计 会 浪费 面积 ， 因 为 引 脚 和 在 品 片 上 与 其 他 邻近 
芯片 的 隔离 本 身 就 需要 面积 。 

设计 者 可 用 的 面积 是 一 个 跟 制造 工艺 相关 的 函数 。 这 包括 没有 灰尘 和 其 他 打 
质 的 纯 硅 晶体 和 工艺 的 整体 控制 。 提 高 工艺 水 平 可 以 使 在 更 大 芯片 切 块 时 达到 更 
高 的 成 品 率 。 虽 然 光 刻 技术 和 工艺 都 有 提高 ， 但 是 涉及 的 参数 并 没有 相应 的 缩 
放 。 成 功 的 设计 者 必须 对 预期 的 工艺 发 展 有 足够 的 前 上 脆性， 这 样 即使 早期 的 设计 
成 品 率 很 低 ， 但 随 着 工艺 的 进步 ,设计 周 期 得 以 延长 ， 成 品 率 有 所 提高 ， 这 样 就 
可 以 通过 广泛 的 基础 产品 来 摊 销 设计 团队 的 固定 成 本 。 



































© in; 英寸 , lin =2.54cm。 
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芯片 面积 
图 2.7 成 品 率 和 芯片 面积 的 关系 


假设 矩形 的 芯片 面积 为 4。 在 一 个 直径 为 d 的 晶 圆 上 大 概 有 ON (IL 
图 2.8) ， 有 





Try 2 
N= JA) 


这 样 修正 直径 的 唱 圆 被 芯片 分 割 。 现 在 假设 在 晶片 上 有 Ne 个 好 的 芯片 和 mn 
个 缺陷 点 。 即 使 N, > W， 也 可 能 得 到 几 个 好 的 芯片， 因为 缺陷 是 随机 分 布 的 ， 
几 个 缺陷 点 可 能 附 集 在 一 个 缺陷 蕊 片上， 浪费 了 少量 芯片 。 

根据 Ghandi 的 分 析 " ,假设 随机 在 晶 圆 上 加 一 个 缺陷 ;NjAN 就 是 这 个 缺 
陷 毁 掉 一 个 好 芯片 的 概率 。 注 意 ， 如 果 缺 陷落 在 了 已 经 坏 掉 的 芯片 上 ， 那 么 就 不 
会 引起 好 的 芯片 数量 的 变化 。 换 名 话说 ， 好 芯片 数 we 的 变化 与 缺陷 数 N 变化 
的 比 为 
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直径 4 
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图 2.8 直径 为 d 的 晶 圆 上 忌 片 的 数量 (面积 为 4) 























dN, Ne 
IN, WN 
ye a LAN, 
积分 求解 得 
InN, = - z +C 


解 C 的 值 ， 注 意 当 N =NIN, N, =0; 所 以 C 必定 的 为 In(N)。 
那么 成 品 率 为 





这 说 明了 缺陷 是 泊 松 分 布 的 。 

WR p, 是 每 单元 面积 的 缺陷 密度 ， 那 么 有 

Ny =P, X ( 品 圆 面积 

对 于 大 的 晶 圆 4 之 VA， 蝇 加 直径 明显 大 于 芯片 边 长 ， 故 

















(d-vA) =d 
Np 
WP oA 
所 以 ， 成 品 率 为 


第 2 章 芯片 基础 : 时 间 、 面 积 、 功 耗 、 可 靠 性 和 可 配置 性 43 





图 2. 9 给 出 了 不 同 缺陷 浓度 下 好 芯片 数 与 芯片 面积 的 对 比 ， 是 几 种 不 同 缺 陷 
密度 下 芯片 面积 与 预期 成 品 数 的 函数 关系 。 工 艺 的 成 熟 性 和 设备 的 费用 决定 了 
p, 的 大 小 ， 当 前 ， 最 好 的 现代 化 设备 的 m 一 般 在 0. 15 ~0.5 之 间 。 
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图 2.9 不 同 缺 陷 浓度 下 好 芯片 数 与 芯片 面积 的 对 比 

















大 尺寸 的 芯片 成 本 是 很 高 的 。 对 于 当前 已 经 很 大 的 p, xA ( 约 为 5~10) 来 
讲 ， 芯 片 尺 十 加倍 对 成 品 率 的 影响 是 非常 显著 的 。 因 此 ， 大 世 片 设计 者 确信 ， 工 
艺 的 发 展 迟 早 会 降低 p, 来 为 赚钱 的 产品 提供 足够 的 成 品 率 。 


2.3.2 ”处 理 器 单元 


在 系统 或 处 理 器 内 部 ,设计 的 特定 单元 所 占用 的 面积 是 其 成 本 的 一 个 基本 衡 
量 标准 。 在 做 设计 选择 或 计算 一 个 特定 设计 的 相对 优势 时 ， 边 际 效用 原则 是 经 常 
使 用 到 的 : 假设 有 一 个 完整 的 基础 设计 和 一 些 扩展 设计 的 额外 引 脚 /面积 ， 选 择 
最 佳 的 引 脚 扩展 面积 。 在 没有 输出 引 脚 信息 时 ， 假 设 这 个 面积 是 特定 的 性 价 权衡 
的 一 个 主导 因素 。 

很 显然 面积 的 单位 是 平方 毫米 ， 但 是 因为 光 刻 和 几何 最 小 特征 尺寸 是 在 不 断 
变化 的 ， 无量 纲 单位 会 更 好 一 些 。 其 中 ，Mead 和 Conway! FBR 和 A 来 解决 这 
个 问题 ， 它 是 任意 两 层 掩 膜 之 间 的 最 小 几何 尺寸 。 扩 散 区 的 最 小 尺寸 为 24 ,与 
其 相 邻 扩散 区 间 的 尺寸 可 能 为 3A。 

假设 从 一 个 2A x2A 的 晶体 管 和 人手 ， 那 么 标 称 2A x2A 的 晶体 管 可 以 扩展 为 
AN x4A， 至 少 需要 LA 来 与 其 他 晶体 管 进行 隔离 ， 需 要 整个 晶体 管 至 少 需要 25A” 
的 面积 。 这 样 ， 单 个 晶体 管 的 面积 是 4A- 放置 在 25X? 的 区 域 中 。 

最 小 特征 尺寸 /是 多 晶 硅 门 的 长 度 ， 或 者 说 是 一 个 晶体 管 的 长 度 和 =2A。 很 
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明显 ， 可 以 用 入 来 定义 设计 ， 并 且 可 用 任何 其 他 处 理 器 尺寸 〈 门 、 寄 存 器 大 小 
等 ) 来 表示 晶体 管 的 数量 。 所 以 ， 面 积 单位 的 选择 是 相对 任意 的 。 然 而 ， 好 的 
单位 是 能 够 代表 基本 架构 的 权衡 。 寄 存 骨 等 效 位 (register bit equivalent, rbe) 
是 一 个 非常 有 用 的 单位 。 它 定义 了 一 个 六 晶体 管 寄存 器 单元 ， 表 示 大 概 2700A° 
的 面积 。 很 明显 它 要 比 单 晶 体 管 面积 的 六 倍 要 大 ， 因 为 它 包 含 了 更 大 的 晶体 管 、 
管 间 的 连接 和 内 部 位 之 间 必 要 的 隔离 面积 。 

静态 RAM (Static RAM, SRAM) 单元 具有 更 小 的 带宽 ， 面 积 要 比 rbe 小 很 
多 ,而 一 个 DRAM 位 单元 用 的 面积 就 更 小 了 。 根 据 经 验 得 到 它们 之 间 的 关系 ， 
见 表 2.2。 


























R22 独立 于 工艺 的 相对 面积 rbe 和 A 的 总 结 
(只 要 给 出 特征 尺寸 f/， 可 以 算出 任何 的 沪 片 面积 
















































































































































































面积 单位 为 tbe 
一 个 寄存 器 位 1. 0rbe 
片上 缓存 的 一 个 SRAM 位 0. 6rbe 
一 个 DRAM 位 0. Irbe 
the 等 价 于 ( 用 特征 尺寸 为 了 ) lrbe = 675f? 
面积 单位 为 A 
特征 尺寸 为 f=1pm 时 A 为 1mm? 
1A =f? x10° (FHH um) 
或 者 约 为 ~148Irbe 
一 个 简单 的 有 32 个 字 每 字 32 位 的 整数 文件 (1 E+ 1 读 / 写 ) =1444rbe 
或 者 约 为 ~1A( =0. 975A) 
一 个 4KB 的 直接 映射 缓存 =23524rbe 
或 者 约 为 一 16A 
简单 通用 缓存 〈 标 签 和 控制 位 数 少 于 数据 位 数 的 1/5) =4A/KB 
简单 处 理 器 (近似) 
32 位 处 理 器 (没有 缓存 和 浮 点 计算 ) =50A 
32 位 处 理 器 (没有 缓存 但 是 包含 64 位 浮 点 计算 ) =100A 
32 位 单 核 并 行 撩 量 处 理 器 ， 没 有 缓存 和 矢量 存储 =200A 
内 部 锁 存 器 、 总 线 、 控 制 和 时 钟 单元 所 需 面积 额外 需要 处 理 器 面积 的 50% 
Xilinx FPGA 
一 个 块 (2LUT +2FF + MUX) =700rbe 
Virtex 4 的 一 个 可 配置 逻辑 模块 (4 小 块 ) =2800rbe ~1. 9A 
一 个 18KB AY RAM 模块 = 12600rbe ~8. 7A 
HRAZK PPC405 1% 一 250A 
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表 中 ， 寄 存 器 堆 的 面积 由 寄存 带 位 数 和 可 存 取 堆 的 端口 P 数量 决定 : 
寄存 器 堆 面 积 = ( 寄存 器 数 +3P) (寄存 器 位 数 +3P)rbe 

缓存 面积 用 的 是 SRAM 位 模型 ， 由 缓存 位 的 总 数 所 决定 ， 包 括 数 组 、 索 引 
和 控制 位 。 

芯片 或 部 分 芯片 上 单位 rbe 的 数量 在 迅速 增 大 ， 所 以 通常 用 一 个 更 大 的 静态 
单位 比较 容易 。 我 们 简单 地 将 这 个 单位 定 为 A， 定 义 在 f=1pm 时 其 值 为 1mm 的 
芯片 面积 。 这 同时 也 是 一 个 32 x 32 的 三 端口 寄存 器 堆 或 者 1481rbe 的 面积 。 

晶体 管 密度 、rbe 和 A 都 是 特征 尺寸 二 次 方 的 一 个 扩展 。 正 如 表 2. 3 所 示 ， 
对 于 特征 尺寸 f/，1mm 面积 上 A 的 数目 就 是 (1/1)”。 与 1m 的 特征 尺寸 相 
比 ， 在 特征 尺寸 45nm LEF, 1mm 面积 上 晶体 管 的 数量 rbe 值 的 大 概 是 其 
500 多 倍 。 














表 2.3 不 同 特征 尺寸 的 晶体 管 密度 (以 A 计量 ) 








特征 尺寸 / pm ff mm? 的 A 数 特征 尺寸 / pm 每 mm? 的 A 数 

















1. 000 1.00 0. 090 123. 46 
0. 350 8. 16 0. 065 236. 69 
0. 130 59.17 0. 045 493. 93 














2.4 理想 和 实用 尺寸 


在 特征 尺寸 和 晶体 管 缩小 的 同时 ， 和 希望 晶体 管 的 密度 也 以 特征 尺寸 二 次 方 的 
数量 级 提高 。 相 似 的 ， 传 输 延 时 ( 门 延 时 ) 应 该 会 与 特征 尺寸 (与 电容 的 降低 
一 致 ) 线性 相关 地 降低 。 实 用 尺寸 则 不 同 ， 因 为 线 延 时 和 线 密度 的 尺寸 变化 率 
与 晶体 管 尺寸 不 同 。 特 征 尺 寸 减 小 的 同时 线 延 时 几乎 保持 不 变 ， 因 为 偏 移 电 阻 增 
大 ， 长 度 和 电容 减 小 。 图 2. 10 说 明了 线 延 时 相对 门 延 时 的 主导 地 位 的 上 升 ， 尤 
其 是 在 特征 尺寸 小 于 0. 10pm 的 时 候 。 相 似 地 ， 当 特征 尺寸 小 于 0.2pm 时 ， 晶 
体 管 密度 的 提高 就 会 一 定 程度 上 比特 征 尺 寸 的 二 次 方 小 。 通 常 建议 认为 将 1.5 作 
为 扩大 因子 更 准确 ， 如 图 2. 11 所 示 ; KIRA, MAEA Sf) mA SE 
(f1/f,)* 扩 大 。 在 缩放 过 程 中 发 生 的 事情 是 很 复杂 的 。 不 仅 特 征 尺 寸 减 小 了 ， 工 
艺 的 其 他 方面 也 发 生变 化 ， 并 且 通 常 是 提高 的 。 所 以 ， 铜 线 和 许多 其 他 的 布线 层 
就 可 以 实现 ， 并 且 提 高 电路 设计 。 主 流 工艺 的 改变 会 以 不 连续 的 方式 影响 到 尺 
寸 。 只 要 设计 者 能 够 利用 新 一 代 工艺 的 全 部 属性 ， 布 线 的 限制 带 来 的 影响 就 会 戏 
剧 性 地 改善 。 简 单 的 设计 尺寸 可 能 紧 紧 以 1. 5 倍 指数 的 速度 扩大 ， 但 利用 新 工艺 
特征 的 新 一 代 实 现 方式 可 以 达到 2 倍 指数 的 扩大 速度 。 为 了 简化 起 见 ， 后 面 ， R 
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们 将 根据 上 面 的 理解 利用 理想 尺寸 。 


400 








| EN 一 一 
350 | 内 部 连 线 延 时 ——~ | 
SOO -Ne 


延 时 /ps 














0.7 0.5 0.35 0.25 0.18 0.13 


图 2. 10 线 延 时 与 门 延 时 对 比 





面积 / (mm X mm) 














0.35 0.25 0.18 0.13 0.09 
工艺 /um 


图 2.11 最 优 和 实际 缩放 的 芯片 面积 





研究 2.1 一 个 基本 的 SoC 面积 模型 

高 效 系统 设计 的 关键 是 芯片 层次 设计 。 艾 片 层次 设计 的 过 程 跟 电阻 的 层次 
设计 过 程 没 有 太 大 区 别 。 处 理 天 的 每 个 功能 部 分 必须 放置 在 足够 大 的 空间 来 实 
现 。 经 党 交流 的 功能 单元 必须 紧密 地 放 在 一 起 。 连 接 路 径 上 必须 分 配 足够 的 
空间 。 

为 了 解释 在 优化 必 片 层次 设计 的 过 程 中 可 能 会 做 出 的 权衡 因素 ， 给 大 家 介绍 
一 个 基准 系统 。 在 此 系统 中 ， 特 定 区 域 可 以 完成 不 同 的 功能 。 面 积 模型 是 基于 经 
验 发 现 的 ， 这 些 发 现 源 于 现 有 世 片 、 设 计 经 验 和 某 些 情况 下 的 逻辑 推理 (如 浮 














第 2 章 芯片 基础 : 时 间 、 面 积 、 功 耗 、 可 靠 性 和 可 配置 性 47 





点 加 法 器 和 整数 ALU 的 关系 ) 。 这 里 所 描述 的 芯片 在 任何 意义 上 都 不 应 该 是 最 佳 
的 ， 而 是 当今 市 场 上 一 定数 量 设 计 中 的 典型 例子 。 
出 发 点 。 设 计 起 始 于 对 半导体 设计 工艺 参数 的 理解 。 假 设 能 够 使 用 缺陷 密度 
为 0.2 个 缺陷 /cm 的 制造 工艺 ; 出 于 经 济 考虑 ， 目 标 成 品 率 大 约 为 95% ， 有 
了 =e ?0 
SP, =0.2 个 缺陷 /em ，Y=0.95。 则 
A H 25mm? 





或 者 说 大 概 为 0.25cm 。 

所 以 可 用 的 芯片 面积 为 25mm?， 
这 是 芯片 的 总 面积 ， 但 是 像 连接 芯片 
与 外 部 世界 的 线 端 焊 点 、 这 些 连接 点 
的 驱动 和 供 能 电路 等 都 会 降低 设计 者 
能 够 利用 的 芯片 面积 。 假 设 利 用 12% 
的 芯片 面积 (通常 是 芯片 外 围 ) 来 完 
成 这 些 功 能 ， 那 么 净 面 积 为 22cm”( 见 

















图 2. 12) 。 
特征 尺寸 。 特 征 尺寸 越 小 ， 就 有 








输入 /输出 (VO) 端口 
所 需 结构 面积 





越 多 的 逻辑 单元 可 以 在 固定 的 面积 
实现 。 在 特征 尺寸 f=65nm 时 ， 可 以 
有 大 约 52004 或 者 22 mm 的 面积 单元 。 
体系 结构 。 根 据 定义 ， 几 乎 每 个 系统 都 是 不 同 于 其 他 系统 的 ， 每 个 系统 都 有 
不 同 的 目标 。 例 如 ， 假 设 我 们 需要 具备 如 下 结构 : 
© 一 个 小 的 32 位 处 理 器 核 ，8KB 的 指令 缓存 和 16KB 的 数据 缓存 。 
© 两 个 32 位 矢量 机 ， 每 个 矢量 机 有 16 个 1K x 32b 的 矢量 存储 体 ; 一 个 
SKB 指令 缓存 和 一 个 16KB 数据 缓存 来 存放 标量 数据 。 
。 一 个 总 线 控制 单元 。 
© 128KB 的 实地 址 应 用 存储 器 。 
。 一 个 共享 二 级 缓存 。 








图 2.12 芯片 净 面 积 





















































面积 模型 。 下 面 是 根据 系统 中 不 同 单元 需求 对 面积 的 分 解 。 
单 ”元 面积 /A 单 ”元 面积 /A 
处 理 器 核 (32* ) 100 矢量 寄存 器 和 缓存 2 352 
缓存 核 (24KB) 96 总 线 和 总 线 控制 (50% ) 大 约 小 于 650 
矢量 机 1 200 应 用 内 存 (128KB) 512 
矢量 寄存 器 和 缓存 1 256 + 96 总 计 2462 
矢量 机 2 200 
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锁 存 器 、 总 线 和 内 部 控制 。 对 于 每 个 功能 单元 ， 都 有 一 定 的 开销 ， 包 括 非特 
SARs 〈 锁 存 器 ) 、 内 部 通信 (总 线 ) 和 内 部 单元 控制 。 其 中 锁 存 器 的 开销 占 
10% ， 总 线 、 工 艺 路 线 、 时 钟 和 所 有 的 控制 占 40% 。 

系统 总 面积 。 专 用 人 处理 器 单元 和 存储 部 件 占 2462A。 这 样 剩 下 净 (5200 - 
2462) A =2738A 的 面积 可 以 用 作 缓 存 。 注 意 ， 必 片 是 高 度 的 以 存储 为 导向 的 。 
剩 下 的 面积 将 会 分 配给 二 级 缓存 。 

缓存 面积 。 绥 存 能 够 分 配 的 净 面 积 为 2738A。 但 是 对 于 缓存 设计 者 来 说 ， 芯 
片上 零 零 碎 碎 没有 被 占用 的 面积 并 不 一 定 有 用 。 这 些 碎片 必须 合理 地 集中 在 一 个 
紧凑 的 区 域 才 能 够 设计 出 高 效 的 缓存 。 

例如 ， 一 个 长 宽 比 很 大 的 可 用 区 域 明显 比 一 个 紧凑 或 方形 的 区 域 可 用 性 差 。 
一 般 来 说 ， 在 处 理 器 分 层 设计 之 初 ， 会 为 长 宽 比 失调 分 配 另 外 10% 的 开销 。 这 
样 剩 下 可 用 的 净 面 积 就 成 了 2464A。 

这 样 就 得 到 了 大 约 512KB 的 二 级 缓存 。 这 合理 吗 ? 在 这 一 点 上 只 能 说 这 人 么 
E 现在 必须 应 用 一 下 并 确定 这 个 分 配 是 否 会 得 到 最 高 

性 能 。 或 许 更 大 的 存储 器 或 者 另外 一 个 矢量 机 或 者 更 小 的 二 级 缓存 能 够 得 到 更 好 
的 性 能 。 接 下 来 就 讨论 这 个 性 能 问题 。 

图 2. 13 给 出 了 一 个 芯片 分 层 设 计 的 基本 框架 实例 。 设 计 面 积 的 规则 总 结 
如 下 : 

1. 根据 缺陷 密度 和 成 品 率 的 目标 ， 算 出 目标 芯片 的 尺寸 。 

2. 算出 芯片 成 本 ， 确 定 它 是 否 符合 要 求 。 














可 编 址 应 


总 线 和 内 部 控制 单元 


二 级 缓存 








图 2. 13 ”一 个 芯片 分 层 设 计 的 基本 框架 实例 
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3. 计算 净 可 用 面积 。 为 引 脚 、 保 护 环 、 电 源 等 留 出 10% ~ 20% (或 其 他 合 
适 比 例 ) 的 面积 。 

4. 根据 最 小 特征 尺寸 ， 算 出 rbe 的 尺寸 。 

5. 在 试验 的 系统 架构 基础 上 分 配 面积 ， 直 到 基本 的 系统 面积 得 以 确定 。 

6. 将 5 中 的 系统 基本 尺寸 减 掉 3 的 净 可 用 面积 。 得 到 的 就 是 世 片 缓存 和 存 
储 器 可 用 的 最 优 面 积 。 

注意 ， 在 这 个 研究 当中 (并且 对 于 很 多 小 特征 尺寸 设计 更 加 确定 )， 尽 片 的 
大 部 分 都 被 分 配给 了 一 种 或 另 一 种 存储 器 。 最 基本 的 处 理 器 面积 大 约 为 20% , 
其 中 部 分 面积 包括 总 线 和 控制 部 分 。 因 此 ， 只 要 对 存储 器 的 估计 是 准确 的 ， 那 么 
不 论 对 处 理 器 核 和 矢量 机 面积 的 估计 多 么 粗略 都 不 会 影响 芯片 面积 分 配 的 准确 
度 。 在 特定 的 设计 条 件 下 ， 有 很 多 用 来 计划 芯片 分 层 的 商业 工具 。 




















2.5 Ih 


近来 ， 对 无 线 和 便携 式 电子 产品 需求 的 增加 使 得 更 多 的 关注 放 在 了 功 耗 上 。 
美国 SIA 指出 了 微 处 理 器 芯片 由 于 工作 频率 的 增高 、 整 体 电容 的 增 大 和 尺寸 的 增 
大 而 存在 日 益 增长 的 功 耗 问题 。 功 耗 是 芯片 消耗 的 功率 ， 它 并 不 是 由 特征 尺寸 直接 
决定 的 ， 因 为 它 最 基本 的 决定 因素 是 频率 。 表 2.4 给 出 了 芯片 按 功 耗 分 类 的 情况 。 




















#24 ” 艾 片 按 功 耗 分 类 的 情况 1 
类 型 芯片 功率 电源 和 工作 环境 
冷却 高 功 耗 70.0W 外 插 ， 冷 却 环境 
高 功 耗 10.0 ~50.0W SMa, UE 
低 功 耗 0. 1 ~2.0W 可 充电 电池 
超 低 功 耗 1.0 ~ 100. OmW AA 电池 
极 低 功 耗 1. 0 ~100.0pW 钮 扣 电 池 











在 晶体 管 级 ， 其 总 功率 Pu 包括 两 个 主要 部 分 : 动态 或 切换 功率 和 由 漏电 流 
引起 的 静态 功率 ， 即 


Pi = + Leakage V 


式 中 ，C 为 晶体 管 电容 ; 了 为 电源 电压 ; /为 晶体 管 的 切换 频率 ; Deag I E io 
直到 最 近 ， 切 换 功率 一 直 是 总 功率 的 主导 因素 ， 但 是 现在 静态 功率 也 在 增加 。 从 
另外 一 个 角度 来 讲 ， 门 延 时 大 概 跟 CVA(V -VV 成 正比 。 基 中， 为 晶体 管 的 
HEEE 〈 对 于 逻辑 级 开关 ) 。 

特征 尺寸 减 小 的 同时 ， 唱 体 管 尺寸 也 在 减 小 。 更 小 的 晶体 管 尺 寸 导致 了 电容 
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降低 。 电 容 降 低 的 同时 降低 了 动态 功率 和 门 延 时 。 随 着 晶体 管 尺寸 的 减 小 ， 应 用 在 
其 中 的 电场 已 经 大 到 毁灭 性 的 程度 。 为 了 提高 晶体 管 的 可 靠 性 ， 我 们 需要 降低 电源 
电压 Vo EREE 有 效 地 降低 了 动态 功率 ,但 是 却 导 致 门 延 时 增加 。 可 以 通过 降 
低 Vi 来 避免 这 种 损失 。 而 男 一 方面 ， 降 低 ,提高 了 漏电 流 ， 因 此 也 就 提高 了 静态 
功率 。 这 对 设计 和 产品 的 影响 是 很 大 的 ; 在 产品 中 必须 有 以 下 两 种 晶体 管 设 计 : 

1. 低 Vi 值 和 高 静态 功率 的 高 速 晶 体 管 。 

2. 维持 Vi 和 VV 不 变 ， 以 电路 密度 和 低 静 态 功 率 为 代价 的 低速 晶体 管 。 

不 论 哪 种 情况 ， 都 可 要 通过 降低 电源 电压 了 来 减 小 开关 功率 。Chen A 
说 明了 漏电 流 的 正比 值 为 





I=(V-V,)"” 

式 中 , 了 为 电源 电压 。 

根据 上 面 的 讨论 可 以 看 到 ， 信 和 号 传递 时 间 和 频率 随 充 电 电流 而 变化 。 所 以 ， 
最 大 工作 频率 也 是 跟 (了 =- 了 内) 二/ 呈正 比 关系 的 。 对 了 和 内 的 值 感 兴趣 ， 也 
就 是 说 频率 随 电 源 电压 呈 比 例 变化 。 

假设 所 是 0.6V; 假如 将 电源 电源 降 为 1/2， 也 就 是 从 3. 0V 降 为 1.5V， 那 
么 工作 频率 也 降 为 了 大 约 原 来 的 1/2。 所 以 ， 电 源 电压 减 半 ， 工 作 频 率 也 将 
减 半 。 

根据 功率 方程 (电压 和 频率 都 已 经 减 半 ) ， 总 功 耗 变 为 了 原来 的 1/8。 因 此 ， 
如 果 对 现存 设计 的 频率 进行 优化 并 且 将 其 改 为 低 电 压 运 行 ， 那 么 频率 将 会 大 概 降 
为 最 初 静态 功率 的 三 次 方 根 : 

1 _ jP 
h P, 

理解 对 现存 设计 的 频率 的 缩放 和 功 耗 优化 实现 之 间 的 区 别 是 非常 重要 的 。 功 
耗 优化 的 实现 和 功能 优化 的 实现 在 几 个 方面 是 不 同 的 。 

功率 优化 的 实现 是 用 更 少 的 芯片 面积 ， 不 仅 是 因为 要 降低 供电 和 时 钟 分 配 的 
需求 ， 而 且 更 重要 的 是 因为 性 能 目标 的 降低 。 性 能 主导 的 设计 利用 了 大 量 的 面积 
使 到 性 能 的 边际 提高 ， 如 用 超大 规模 的 浮 点 单元 、 最 小 时 钟 倾 斜 的 分 布 网 络 和 最 
大 尺寸 的 缓存 。 但 对 于 利用 电池 的 便携 式 或 者 无 线 处 理 器 来 讲 ， 功 率 是 最 关键 的 
问题 ， 而 不 是 性 能 。 表 2. 5 给 出 了 一 些 电 池 的 容量 和 工作 周期 。 


k25 一 些 电 池 的 容量 和 工作 周期 






























































电池 类 型 电量 /(mA + h) 工作 周期 、 寿 命 yo R 
可 充电 电池 10000 50 小 时 (10% ~20% 使 用 时 间 ) 400mW ~4W 

2x AA 电池 4000 0.5 Æ (10% ~20% 使 用 时 间 ) 1 ~10mW 
钮 扣 电 池 40 5 年 (一直 用 的 情况 下 ) 1pW 
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对 于 需要 在 电池 上 运行 额外 一 段 时 间 的 SoC 设计 来 讲 ， 整 个 系统 的 功率 必须 
保持 很 低 (KRAKER). 。 因 此 ， 功 率 管理 的 实现 也 就 从 系统 架构 和 操作 系统 
级 延伸 到 了 逻辑 门 级 。 

另外 一 个 功率 上 的 约束 峰值 功率 也 是 设计 者 不 能 忽略 的 一 个 问题 。 在 任何 设 
计 当 中 ,在 特定 电压 下 电源 只 能 提供 相应 的 电流 ; 超过 这 个 值 ( 即使 是 一 个 瞬 
变 ) 都 会 导致 逻辑 错误 或 者 更 糟糕 的 状况 〈 毁 掉 电源 ) 。 





2.6 在 处 理 器 设计 中 面积 -时 间 - 功 耗 的 权衡 


对 于 以 下 两 种 常见 的 处 理 器 来 讲 ， 设 计 权 衡 是 相当 不 同 的 : 

1. 工作 站 处 理 器 。 这 类 设计 是 以 高 频 和 交流 电源 为 设计 导向 的 (不 包括 笔 
记 本 ) 。 因 此 它们 没有 面积 限制 ， 缓 存 占 据 了 芯片 的 大 部 分 面积 ， 设 计 是 相对 非 
常 精心 复杂 的 〈 超 标量 多 线程 ) 。 

2. SoC 上 的 嵌入 式 处 理 吉 。 这 类 处 理 器 通常 控制 结构 比较 简单 ， 但 是 在 专用 
处 理 需 中 可 能 会 比较 复杂 (如 DSP) 。 面 积 是 一 个 重要 因素 ， 设 计时 间 和 功 耗 同 
样 也 是 。 


2.6.1 工作 站 处 理 器 


为 了 得 到 通用 目标 的 性 能 ， 设 计 者 假定 电源 能 量 是 足够 的 。 最 基本 的 权衡 是 
在 时 钟 的 高 频率 和 导致 的 高 功 耗 之 间 的 权衡 。 早 在 20 世纪 90 年 代 初 期 ， 利 用 了 
双 极 工艺 的 射 极 耦合 逻辑 (Emitter Coupled Logic, ECL) 在 高 性 能 应 用 领域 (E 
体 架 构 和 超级 计算 机 ) 占据 了 主导 地 位 。 
其 功率 密度 为 80W/cm*， 模 块 的 封装 需要 
液体 的 散热 形式 。 日 本 日 立 公 司 的 M-880 
是 这 个 时 期 的 一 个 例子 ( 见 图 2.14), 一 
个 约 10cm x 10cm 的 模块 功率 为 800W。 这 
个 模块 包括 40 个 分 割 块 ， 用 冷水 密封 在 
氮气 当中 ， 这 些 冷 水 是 从 模块 上 方 的 一 个 
冷却 管 压 和 的。 由 于 CMOS 是 接近 双 极 性 
的 ， 所 以 这 样 一 个 冷却 系统 的 特殊 成 本 就 
不 复 存 在 了 ， 然 后 晶体 管 时 代 结 束 了 
( 见 图 2 15)。 现 在 ，CMOS 已 经 达到 了 图 2.14 日 本 日 立 公 司 M-880 处 理 器 模块 
相同 的 功率 密度 ， 如 果 芯 片 频率 继续 增 M880 大 约 是 在 1991 年 问世 的 。 该 模块 
加 ， 那 么 就 不 得 不 再 次 考虑 使 用 类 似 的 冷 。 大 小 为 10. 6cm x 10. 6cm, 功率 为 800W 
却 技 术 了 。 事 实 上 ， 在 2003 年 以 后 ， 有 并 带 有 水 冷 系 统 ) 
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用 的 芯片 频率 稳定 在 了 3.5GHz 左右 。 


1000 上 
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时 钟 频率 /MHz 
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图 2.15 不 同时 间 双 极 晶 体 管 和 CMOS 处 理 器 频率 
(一 般 来 讲 ，CMOS 频率 的 增长 已 经 因为 功率 而 受到 约束 ， 在 大 约 2003 年 停 在 了 3.5GHz) 














2. 6.2 ”网 入 式 处 理 器 


片上 芯片 的 实现 有 很 多 的 优势 。 其 需求 是 众所周知 的 ， 所 以 存储 器 大 小 和 实 
时 延迟 约束 是 可 以 预测 的 。 处 理 器 可 以 为 了 实现 一 个 特定 功能 而 特色 化 。 通 常 ， 
这 样 做 可 以 降低 时 钟 频率 (HFE), ， 同 时 可 以 通过 直接 开发 体系 结构 内 的 并 发 性 
重新 得 到 相应 性 能 (如 DSP 应 用 中 使 用 简单 VLIW ) 。 跟 处 理 器 芯片 相 比 ， 可 利 
用 的 设计 时 间 / 工 作 和 芯片 内 部 功能 块 间 的 通信 和 是 SoC 的 劣势 。 对 任何 一 个 特定 
AB, SoC 的 市 场 都 相对 较 小 。 因 此 ， 人 们 很 难 承担 在 处 理 器 芯片 上 广泛 的 定制 
优化 ， 所 以 通常 都 会 用 成 品 的 处 理 器 核 。 因 为 在 设计 的 时 候 就 知道 程序 和 数据 所 
需 的 存储 空间 大 小 ， 特 定 存储 结构 可 以 被 包含 在 芯片 上 。 这 可 以 是 SRAM 或 者 
特殊 设计 的 DRAM (因为 普通 DRAM 的 工艺 与 之 不 相 容 ) 。 有 了 多 个 存储 单元 、 
多 个 处 理 器 (有 些 是 专用 的 有 些 是 通用 的 ) 和 特殊 的 控制 器 ， 问 题 就 只 剩 下 为 
保证 及 时 的 通信 设计 一 个 稳健 的 总 线 层 了 。 盟 型 的 处 理 器 芯片 与 SoC 芯片 的 比较 
如 表 2. 6 所 示 。 











表 2.6 典型 的 处 理 器 芯片 与 SoC 芯片 的 比较 





























ats Fr Ab SL ae SoC 
存储 所 用 面积 80% 的 缓存 50% 的 ROM/RAM 
时 钟 频 率 3. 5GHz 0. 5GHz 
功率 >50W <10W 
内 存 >1GB DRAM 大 部 分 在 
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2.7 可 靠 性 


第 四 个 重要 的 设计 因素 是 可 靠 性 "2 ， 也 叫做 可 依赖 性 或 容错 性 。 影 响 可 靠 
性 的 因素 比 成 本 和 功 耗 对 人 处理 器 或 SoC 心 片 的 影响 因素 要 多 很 多 。 

可 靠 性 跟 忆 片面 积 、 时 钟 频率 和 功 耗 有 关 。 芯 片面 积 增加 了 电路 的 数量 和 发 
生 错 误 的 可 能 性 ， 但 它 也 允许 使 用 错误 探测 和 纠 错 技术 。 高 时 钟 频率 增加 了 电气 
噪声 和 噪声 密度 。 越 小 的 电路 速度 越 快 ， 也 就 越 容 易 受 辐射 的 影响 。 

不 是 所 有 的 失效 和 错误 都 会 导致 故障 ， 确 实 ， 也 不 是 所 有 的 故障 都 会 导致 不 
正确 的 程序 执行 。 故 障 如 果 被 探测 到 ， 就 可 以 用 纠 错 码 (Error Correcting Code, 
ECC) 标识 ， 指 令 重 新 执行 或 者 重新 配置 。 

首先 说 明 以 下 几 个 定义 : 

1. 失效 (failure) 是 与 设计 规格 的 偏差 。 

2. 错误 (error) 是 导致 不 正确 的 信号 值 的 失效 。 

3. 故障 (fault) 是 一 种 表现 为 不 正确 逻辑 的 错误 。 

4. 物理 故障 (physical fault) 是 由 环境 引起 的 ， 如 老化 、 辐 射 、 温 度 和 温度 
周期 变化 等 。 物 理 错误 的 可 能 性 是 随时 间 增 加 的 。 

5. 设计 故障 (design fault) 是 由 设计 实现 与 设计 规格 不 一 致 而 导致 的 失效 。 
通常 ， 设 计 错误 在 设计 的 早期 产生 ， 随 时 间 慢 慢 降低 或 者 被 消除 。 


2.7.1 解决 物理 错误 


从 系统 的 角度 ， 需 要 生成 的 处 理 吉 和 其 附加 配置 是 必须 一 直 很 稳健 的 。 假 设 
一 个 错误 发 生 的 概率 为 P(1), 7 为 错误 的 平均 时 间 (Mean Time Between Fault, 
MTBF) 。 所 以 ， 如 果 A 是 错误 率 ， 则 
1 


入 = 元 
T 


那么 假设 错误 发 生 在 特定 单位 的 时 间 轴 上 ， 时 间 轴 被 平均 时 间 了 分 割 开 来 。 

利用 与 建立 的 成 品 率 泊 松 方程 相同 的 推理 ， 可 以 得 到 错误 泊 松 方程 : 
P(t) =eT =e" 

元 余 是 一 种 能 够 很 明显 提高 可 靠 性 (降低 P(t)) 的 方法 。 三 模 元 余 〈Tri- 
ple Modular Redundancy, TMR) 是 一 种 很 著名 的 技术 。 三 个 处 理 带 执行 同一 个 计 
算 并 进行 结果 比较 。 一 个 裁决 器 选 出 输出 结果 ， 这 个 结果 必须 是 由 至 少 两 个 处 理 
器 同意 的 。TMR 能 够 起 作用 ， 但 仅 是 一 定 程度 上 起 作用 。 除 了 很 显然 的 裁决 器 
的 可 靠 性 问题 外 ， 绝 对 数量 的 硬件 也 有 问题 。 很 明显 ， 虽 然 由 上 能 够 得 到 了， 但 
是 在 TMR 系统 中 错误 的 数量 是 可 以 比 单纯 型 系统 中 多 的 〈 见 图 2.16)。 当 然 ， 
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当 z 满 足 如 下 公式 时 ，TMR 中 错误 的 概率 是 超过 单纯 型 系统 的 : 
t =T x log,2 





错误 概率 














0 01 02 03 04 05 06 07 08 09 
时 间 


图 2.16 TMR 与 单纯 型 系统 的 可 靠 性 比较 


大 部 分 容错 设计 包括 了 如 下 更 简单 的 硬件 : 

错误 检测 。 对 于 可 靠 系统 配置 ， 奇 偶 码 、 残 余 码 和 其 他 编码 的 使 用 是 非常 有 
必要 的 。 

指令 (操作 ) 重 试 。 一 旦 检测 到 错误 ， 操 作 就 重新 执行 ， 以 解决 瞬 变 错误 。 

错误 校正 。 既 然 系 统 的 大 部 分 是 具有 存储 功能 的 ， 利 用 ECC 可 以 有 效 地 克 
服 存储 错误 。 

重新 配置 。 一 旦 错误 被 检测 到 ， 很 可 能 系统 的 一 部 分 就 需要 重新 配置 ， 这 样 
的 话 发 生 错 误 的 子 系统 就 与 后 面 的 计算 隔离 开 来 。 

需要 注意 的 是 ， 带 错误 检测 的 高 效 可 靠 的 系统 配置 是 有 限 的 。 作 为 最 低 限 
度 ， 大 部 分 系统 都 需要 在 必要 的 系统 部 件 的 所 有 部 分 安装 错误 检测 ， 并 且 应 该 有 
选择 性 地 使 用 ECC 和 其 他 技术 来 提高 可 靠 性 。 

IBM 大 型 机 S/390 ( 见 图 2.17) 系统 就 是 一 个 以 可 靠 性 为 导向 的 实例 。 模 型 
包括 了 12 个 处 理 器 模块 : 5 对 双 工 组 态 (5x2) 运行 了 5 个 独立 的 任务 ，2 个 
处 理 需 用 来 监控 和 备用 。 在 双 工 状态 下 ， 成 对 处 理 器 共享 通用 的 缓存 和 存储 系 
统 。 成 对 处 理 器 运行 相同 的 任务 并 且 对 结果 进行 比较 。 处 理 器 在 所 有 可 能 的 地 方 
用 了 错误 检测 。 缓 存 和 存储 系统 利用 的 ECC， 通 常 是 单 错 校正 、 双 错 检测 ( Sin- 
gle Error Correction Double Error Detection, SECDED) 的 。 

近期 的 研究 将 可 靠 性 落脚 于 多 处 理 器 SoC 工艺 上 。 例 如 ， 通 过 宇宙 射线 的 单 
一 事件 干扰 来 提高 可 靠 性 ， 电 压 调 整 和 应 用 任务 映射 等 技术 也 将 会 用 到 [1 。 
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1 号 处 理 器 组 
处 理 器 请 处 理 器 
2 号 处 理 器 组 
处 理 器 监控 /备用 
处 理 器 请 处 理 器 
a 
处 理 器 缓存 处 理 器 
3 号 处 理 器 组 A 
处 理 器 请 处 理 器 
= 四 = 
4 号 处 理 器 组 
5 号 处 理 器 组 


图 2.17 一 种 利用 错误 探测 的 双 工 容错 方法 


2.7.2 错误 检测 和 纠正 


最 简单 的 错误 校 验方 式 是 奇偶 校 验 。 将 1 位 数字 ( 校 验 位 ) 加 到 每 个 存储 
的 字 或 传输 的 数据 中 ， 保 证 这 个 字 中 1 的 个 数 之 和 为 偶数 (或 者 奇数 ， 根 据 方 
便 提前 定义 )。 如 果 字 中 的 任何 一 位 发 生 了 一 个 错误 ， 那么 字 中 1 的 个 数 之 和 对 
2 取 模 就 会 跟 奇 偶 假 设 不 一 致 ， 那 么 存储 的 这 个 字 就 被 认为 是 有 误 的 。 

知道 被 检索 的 这 个 词 中 有 错误 是 很 有 价值 的 。 通 常 ， 简 单 的 重复 接收 一 次 就 
可 以 得 到 正确 的 内 容 。 然 而 ， 通 常 在 特定 存储 咒 单 元 中 的 这 个 字 已 经 丢失 ， 再 多 
次 的 重复 接收 也 无 法 得 到 数据 的 正确 值 。 因 为 这 种 错误 往往 在 大 的 系统 中 发 生 ， 
所 以 大 部 分 系统 都 包含 使 用 ECC 方法 的 自动 纠正 单 错 的 硬件 。 

这 种 形式 的 最 简单 编码 是 由 几何 块 代码 构成 的 。 要 被 检测 的 比特 报 文 被 排 在 
近似 方形 的 网 格 中 ， 用 校 验 位 对 每 一 行 和 每 一 列 进行 增 广 。 如 果 一 行 和 一 列表 示 
了 报 文 在 接收 端 解码 时 发 生 了 错误 ， 那 么 交叉 点 就 是 出 错位 ， 简 单 的 取 反 就 可 以 
得 到 正确 结果 。 如 果 仅 有 一 行 或 者 仅 有 一 列 或 者 多 行 或 多 列 说 明 校 验 失败 ， 那 么 
多 比特 错误 可 以 被 检测 到 并 且 会 加 入 一 个 未 纠正 状态 位 。 

对 于 一 个 64 位 报 文 ， 需 要 加 17 个 校 验 位 : 八 个 行 校 验 位 八 个 列 校 验 位 和 一 
个 额外 的 校 验 行列 校 验 位 的 校 验 位 。( 见 图 2. 18 ) 。 

将 报 文 的 每 一 位 想 成 是 用 来 构成 超 立 方 体会 更 有 效 一 些 ， 每 个 报 文 在 这 个 超 
立方 体 组 合 中 形成 一 个 特定 的 点 。 如 果 这 个 超 立 方 体 可 以 扩展 ， 这 样 合法 的 数据 
点 可 以 被 相关 的 引起 单位 错误 的 不 合法 点 所 围绕 ， 那 么 解码 右 机 可 以 识别 出 不 合 
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法 点 属于 哪个 合法 点 并 且 将 会 0 1 2 3 4 5 67 ff 
存储 报 文 原始 正确 的 扩展 形式 。 

在 两 个 合法 数据 点 之 间 再 加 一 列 0 co 

个 不 合法 点 需要 再 延伸 一 步 1 Ci 

( 见 图 2. 19) 。 与 合法 码 字 不 同 7 (数据 ) ee 

的 最 小 位 数 称 为 码 距 。 这 第 三 。 ， C pan 
个 点 就 表明 发 生 了 两 个 错误 。 5 Cs 

因此 ， 这 两 个 合法 数字 编码 点 。 6 Cs 

很 可 能 是 相等 的 ， 所 以 报 文 是 7 | ci 

可 以 检测 错误 但 是 不 能 纠正 的 。 P, P Py P, Py Ps P, Py 

对 于 一 个 64 位 报 文 , 一 位 的 错 O e 


误 校正 ， 每 2* 个 组 合 对 中 一 定 

会 围绕 或 者 包含 这 64 个 组 成 位 

的 一 种 失效 。 因 此 ， 需 要 总 共 2“* 个 代码 组 合 来 识别 每 个 合法 状态 位 相关 的 不 

合法 状态 位 ， 或 者 总 共 需 要 2“** "个 数据 状态 。 可 以 用 男 外 一 种 表达 方式 : 
Sm+k+1 

式 中 ，m 为 报 文 的 位 数 ; 大 为 文 持 单 错 纠正 所 必须 加 入 的 正确 的 位 数 。 


T 不 合法 表示 





图 2.18 二 维 ECC 





X 





( 单 错 ) 
| | 
X—> eo~ y Y X — o 
合法 数据 1 | 合法 数据 2 


两 个 错误 
图 2.19 ECC 的 码 距 


汉 明 码 代表 了 基于 超 立 方 体 的 ECC 的 一 种 实现 。 与 之 前 在 块 编码 中 一 样 ， 
一 对 等 价 失效 可 以 定位 一 个 错误 位 的 位 置 。 在 汉 明 码 中 ,个 正确 位 确定 了 一 个 
错误 位 的 位 置 。 报 文 必须 排 布 的 能 够 为 代码 提供 正 交 基 (就 像 块 编码 中 的 行 和 
列 一 样 )。 而 且 ， 正 确 位 必须 包含 在 这 个 基 中 。 例 2.1 给 出 了 一 个 16 位 报 文 的 正 
交 基 和 5 个 已 经 确定 的 正确 位 。 加 入 另外 一 个 第 6 位 后 ， 就 可 以 计算 校 验 整个 m+ 
k+l 位 报 文 。 如 果 从 这 个 正确 位 得 知 有 1 位 可 纠正 位 ， 并且 得 知 这 新 的 d 位 
中 没有 校 验 错误 ， 那 么 就 可 以 判断 有 两 位 错误 ， 并且 任何 形式 的 纠 错 都 可 能 会 造 
成 错误 ， 所 以 不 应 该 尝试 纠 错 。 这 种 编码 通常 被 称 作 SECDED。 

例 2.1 一 个 汉 明 码 实 例 。 

假设 有 一 个 16 位 报 文 ，m = 16。 

2*>16+k+1; PRU, k=5, 
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MA, WARA (16 +5) 位 =21 位 。 这 5 个 纠 错位 是 根据 奇人 


义 的 ， 基 2 超 立 方 体 : 


ks 16 ~21 fi 
k, 8 ~15 fit 

k 

ie 2,3,6,7, 


hy 


E De Ts 
换 名 话说，21 HIE MARC, ~ 户 位 包含 了 原始 信息 位 m ~ me 和 纠 错位 ~ 


3 4~7, 12~15 和 20、21 位 


10, 11, 
9，…， 


14, 15 和 18 、19 位 
19, 21 位 


hs。 每 个 纠 错位 都 在 它 所 检验 的 组 内 。 


(BARAT T f 


~fa All m, ~m =0101010101010101。 为 了 解码 简单 ， 把 


纠 错位 仅 放 在 覆盖 制定 的 纠 错 码 位 置 (如 只 有 心材 盖 第 16 位 ): 


ki =f, 
ky =f, 
k; =f, 
ky =fs 
ks =fis 


这 样 就 有 (m, Ef, m, TES) 


ih ffi fs fs hi fs fo fo fu fo fis fa fis fs fr Sis fis foo fn 
kik, Ok 101010101 


所 以 ， 根 据 奇偶 校 





假设 这 个 报 文 传递 但 是 接收 到 的 有 =0 (本 来 它 应 该 是 太 = 态 =1)。 当 接收 
顺 对 着 5 个 校 验 组 进行 重新 计算 时 ， 只 


0 k 101 0 


My 


一 组 包含 了 大 o 

















对 组 内 进行 重新 奇偶 校 验 得 到 : 
ki =0 (在 16 ~21 位 中 没有 错误 ) 


k=l 
ki =0 
k, =0 
ki =0 


失效 形态 01000 错误 位 (第 8 位 ) 的 二 进 制 表示 , 


报 文 。 





必须 改变 这 一 位 来 纠正 
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2.7.3 解决 制造 缺陷 问题 


传统 的 解决 制造 缺陷 问题 的 方法 是 测试 。 随 着 晶体 管 密度 的 增加 和 整个 芯片 
晶体 管 数量 的 相应 增加 ， 测 试 的 问题 发 展 得 更 快 。 可 测试 的 组 合 对 随 着 晶体 管 的 
数目 呈 指 数 性 增长 。 如 果 没 有 测试 方面 的 突破 ， 据 估计， 芯片 测试 的 费用 将 会 
过 其 余 的 制造 费用 。 

如 果 有 可 能 的 话 ， 先 验 性 的 确定 设计 的 完整 性 是 一 件 很 难 的 事情 。 依 据 设计 
验证 的 等 级 ， 不 同 的 自动 设计 工具 是 很 有 用 的 。 在 茶 些 情况 下 ， 当 设计 完成 ， 设 
计 的 逻辑 模型 也 已 经 被 验证 。 设 计 验 证 包括 比较 设计 的 逻辑 输出 和 设计 的 预期 逻 
辑 需 求 是 否 一 致 。 在 像 存储 〈 如 缓存 ) 其 至 是 浮 点 运算 絮 区 域内 ,合理 的 验证 
实现 是 可 能 的 。 更 一 般 的 验证 是 正在 进行 研究 的 课题 。 

当然 ， 硬 件 设计 者 通过 可 测试 性 设计 过 程 也 能 做 出 测试 和 验证 方面 的 努 
Fy) 。 可 用 的 错误 侦 测 硬件 就 是 很 显然 有 助 于 测试 的 。 一 种 可 以 得 到 内 部 存储 
单元 信息 的 测试 技术 叫做 扫描 (scan)。 一 个 扫描 链 最 简单 的 形式 包括 对 每 一 个 
存储 单元 有 一 个 分 开 的 入 口 点 和 一 个 出 口 点 。 每 个 点 都 通过 多 项 选择 器 连接 到 一 
些 总 线 上 ， 这 样 就 可 以 独立 地 通过 下 载 或 存储 来 测试 系统 。 在 扫描 搁 术 中 ， 人 允许 
将 预定 义 的 数据 配置 送 入 存储 单元 ， 然 后 将 输出 特定 的 配置 跟 已 知 的 正确 输出 配置 
进行 比较 。 扫 描 技 术 开 始 于 20 世纪 60 年 代 ， 是 作为 大 型 机 技术 的 一 部 分 而 发 展 起 
来 的 。 它 们 后 来 大 部 分 都 被 遗弃 了 ， 直 到 在 高 密度 块 出 现 的 时 候 才 被 再 次 发 气 。 

扫描 链 需 要 大 量 的 测试 配置 来 覆盖 这 么 大 的 设计 。 因 此 ， 即 使 是 扫描 技术 ， 
对 设计 验证 的 潜力 也 是 有 限 的。 通过 压缩 模式 所 需要 的 数量 和 结合 各 种 内 置 自 检 
功能 ， 可 以 扩展 更 新 的 扫描 技术 。 


2.7.4 ”存储 和 功能 擦 除 


擦 除 技术 (scrubbing) 是 一 种 在 空闲 或 不 可 用 (如 启动 ) 的 时 候 对 一 个 单 
元 进行 演练 性 测试 的 技术 。 它 经 常 被 用 于 存储 器 。 当 存储 器 空闲 的 时 候 ， 存 储 单 
元 就 被 重复 地 进行 读 写 操作 。 这 种 检测 可 以 探测 到 存储 器 坏 掉 的 部 分 ， 然 后 将 这 
部 分 声明 为 不 可 用 ， 进 程 再 加 载 的 时 候 就 会 避 开 。 

原则 上 ， 相 同 的 技术 也 可 以 被 用 在 功能 部 件 上 (如 浮 点 部 件 ) 。 很 明显 ， 如 
果 可 能 有 个 重新 配置 单元 可 以 让 系统 操作 继续 的 话 ， 那 么 将 会 更 有 效 (在 降低 
了 性 能 的 情况 下 ) 。 















































2.8 可 配置 性 


这 部 分 涉及 两 个 主题 ， 包 括 可 配置 性 ， 主 要 关注 设计 的 可 再 配置 性 。 第 一 ， 
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列举 几 条 可 再 配置 性 设计 的 动机 ， 包 括 一 个 简单 的 例子 来 说 明 这 个 基本 的 观点 。 
第 二 ， 佑 计 了 一 下 基于 本 章 前 部 分 介绍 过 的 rbe 模型 并 发 性 可 配置 带 件 所 需要 的 
面积 成 本 。 


2.8.1 为 什么 要 可 配置 性 设计 


本 书 第 1 章 介绍 了 采取 可 配置 设计 的 动机 ， 但 主要 是 从 基于 对 管理 高 性 能 的 
IP 核 的 复杂 度 和 避免 跟 制造 相关 的 风险 和 延迟 的 角度 出 发 的 。 这 里 对 使 用 可 配 
置 性 器 件 ， 如 FPGA， 再 说 明 三 点 原因 。 这 三 点 原因 基于 本 书 前 面 介绍 的 时 间 、 
面积 和 可 靠 性 方面 的 内 容 。 

时 间 。 因 为 FPGA 尤其 是 细 粒 度 的 FPGA 包含 有 大 量 的 寄存 器 ， 所 以 它们 支 
持 高 流水 线 设 计 。 另 外 一 个 考虑 就 是 并 行 性 。 一 个 基于 FPGA 的 低 时 钟 频率 处 理 
器 通过 定制 电路 的 并 行 执行 ， 能 够 有 相似 甚至 更 高 的 性 能 ， 而 不 是 以 高 速 时 钟 频 
率 来 运行 一 个 顺序 处 理 器 。 相 反 的 ， 微 处 理 器 的 指令 集 和 流水 结构 并 不 一 定 适 合 
一 个 给 定 的 应 用 程序 。 后 面 将 会 通过 一 个 简单 例子 来 说 明 这 一 点 。 

H, FPGA 的 可 编程 性 确实 会 带 来 面积 开销 ， 但 是 FPGA 比 ASIC 更 加 简 
化 了 对 先进 制造 工艺 技术 的 应 用 。 所 以 ，FPGA 比 其 他 形式 的 电路 更 能 够 探索 先 
进 的 工艺 。 此 外 ， 一 个 小 的 FPGA 可 以 通过 时 间 分 割 选择 器 和 时 间 的 配置 来 支持 
一 个 很 大 的 设计 ， 配 置 可 以 允许 选择 执行 时 间 和 所 需要 的 资源 数量 。 下 面 也 将 佑 
计 一 下 一 些 基 于 本 章 前 面 介绍 的 rhe 模型 的 FPGA 设计 的 大 小 。 

可 靠 性 。FPGA 的 规整 性 和 同 质 性 使 得 更 多 的 单元 和 内 部 连接 可 以 加 到 其 结 
构 当 中 。 通 过 这 种 元 余 的 结构 ， 产 生 了 很 多 避免 制造 或 者 运行 错误 的 不 同方 法 。 
此 外 ， 在 不 同 的 半导体 制造 工艺 中 ，FPGA 的 可 配置 性 已 经 成 为 了 一 种 提高 电路 
成 品 率 和 时 钟 的 方法 2 。 

为 了 说 明 用 FPGA 加 速 应 用 需求 的 可 能 ， 这 里 介绍 一 个 比较 微 处 理 器 和 FP- 
GA 运行 HDTV 程序 的 简单 例子 。HDTYV 规格 为 1920 x 1080 个 像素 ,或 者 大 约 为 
两 百 万 像素 。 在 30Hz 时 ， 相 应 的 需要 每 分 钟 六 千 万 像素 。 一 个 特定 的 应 用 包括 
了 100 个 操作 ， 所 以 进程 每 秒 钟 大 约 需 要 60 亿 次 操作 。 

思考 一 下 ， 一 个 3GHz 的 微 处 理 器 平均 需要 5 个 周期 来 完成 一 个 操作 。 那 
么 ， 它 可 以 支持 每 周期 0. 2 个 操作 ， 总 体 来 说 ， 每 秒 钟 只 能 执行 6 亿 个 操作 ， 是 
只 所 需要 的 进程 频率 的 1/10。 

相反 的 ， 一 个 100MHz 的 FPGA 设计 每 周期 可 以 并 行 完 成 60 个 操作 。 这 个 
设计 能 够 达到 程序 每 秒 钟 60 亿 操 作 的 要 求 ， 是 3GHz 微 处 理 器 的 十 倍 之 多 ， 虽 
然 ， 它 的 时 钟 频率 仅 是 微 处 理 器 的 1/30。 这 种 设计 可 以 以 不 同 的 方式 利用 可 配 
置 性 ， 如 针对 特定 的 执行 数据 利用 实例 制定 优化 来 提高 面积 、 速 度 和 功 耗 ， 或 者 
重新 配置 使 设计 适应 执行 时 间 的 条 件 限制 等 。 对 可 配置 性 更 深入 的 讨论 将 会 在 本 
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书 第 6 章 。 
2.8.2 可 配置 器 件 的 面积 估计 


为 了 估计 可 配置 器 件 的 面积 ， 利 用 前 面 讨 论 过 的 rbe 作为 基本 方法 。 回 顾 一 
下 ， 例 如 ， 在 实际 设计 中 ， 六 管 寄 存 器 单元 需要 2700A”。 

在 Xilinx FPGA 的 一 个 “slice” 中 ,配置 、 布 线 和 逻辑 大 概 需要 7000 个 晶体 
管 ， 在 一 个 Altera 器 件 的 逻辑 单元 (LE) 中 大 概 有 12000 个 晶体 管 。 根 据 经 验 ， 
每 个 rbe 包含 大 约 10 个 逻辑 晶体 管 ， 所 以 每 个 slice 包含 700 个 rbe。 一 个 大 的 
Virtex XC2V6000 器 件 包含 33792 个 slice 或 者 说 2365 万 个 rbe 或 者 16400A, 

在 这 种 工艺 下 ,一 个 8 x 8 的 乘法 器 将 会 有 35 个 slice 或 24500 个 rbe 或 者 
174。 相 反 的 ， 假 设 包含 一 个 全 加 器 和 一 个 与 门 的 一 位 乘法 器 单元 在 VLSI 技术 
中 有 大 概 60 个 晶体 管 ， 相 同 的 乘法 器 将 会 有 64 x 60 个 晶体 管 =3840 个 晶体 管 ， 
即 384rbe， 这 只 是 可 配置 版 本 的 大 概 1/60。 

考虑 到 在 设计 中 乘法 器 经 常会 用 到 ， 现 在 很 多 FPGA 有 专门 的 资源 来 支持 乘 
法 器 。 这 种 方法 将 可 配置 资源 空 出 来 来 实现 其 他 功能 而 不 是 乘法 器 ， 代 价 就 是 使 
得 器 件 不 再 那么 规则 ， 并 且 当 设计 中 用 不 到 它们 的 时 候 会 产生 面积 浪费 。 


2.9 总 结 





在 处 理 器 设计 中 ， 周 期 时 间 是 最 重要 的 。 它 很 大 程度 上 取决 于 工艺 但 是 主要 
受 次 要 因素 的 影响 ， 如 时 钟 问 题 和 流水 分 割 等 。 

一 旦 周期 时 间 被 确定 ， 设 计 者 的 下 一 个 挑战 就 是 通过 使 用 最 小 的 芯片 面积 且 
使 面积 得 到 最 好 的 性 能 ， 来 优化 性 价 比 。 一 个 独立 于 工艺 的 衡量 面积 的 单位 叫做 
rbe， 它 为 在 一 系列 的 重要 结构 因素 中 权衡 存储 层次 提供 了 基础 。 

虽然 高 效 的 利用 芯片 面积 是 很 重要 的 ， 芯 片 的 功 耗 也 同等 重要 (有 时 候 其 
至 更 重要 ) 。 权 衡 性 能 - 功 耗 比 更 注重 将 所 需 时 钟 频率 最 小 化 ， 因 为 功 耗 跟 频 率 的 
二 次 方 旦 函数 关系 。 因 为 低 功 耗 可 以 应 用 于 很 多 应 用 环境 ， 尤 其 是 那些 无 线 和 基 
于 遥感 的 环境 ， 所 以 认真 地 对 器 件 功 耗 进 行 优 化 决定 了 设计 是 否 成 功 ， 尤 其 是 在 
SoC 设计 中 。 

可 靠 性 通常 是 个 假定 的 要 求 ， 但 是 更 小 的 工艺 尺寸 使 得 设计 对 辐射 和 类 似 的 
冒险 更 加 敏感 。 

根据 应 用 ， 设 计 者 必须 预 执 行 冒 险 并 结合 特征 来 保存 计算 的 完整 性 。 

SoC 设计 的 最 大 难题 就 是 在 预算 约束 范围 之 内 如 何 充分 利用 工艺 优势 。 可 配 
置 性 当然 是 新 兴 的 一 种 很 有 用 的 方法 ， 尤 其 是 所 选择 的 FPGA 技术 。 
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2.10 “习题 


1. 用 四 路 流水 来 实现 一 个 函数 ， 每 一 路 的 延 时 如 下 (b =0.2) : 








段 序 号 最 大 延 时 * /ns 段 序 号 最 大 延 时 * /ns 
1 1.7 3 1.9 
2 1.5 4 1.4 

















(a) 不 加 入 乘法 周期 的 情况 下 ， 可 以 为 最 高 性 能 提供 多 大 的 周期 时 间 ? 

(b) 执行 这 个 函数 的 总 时 间 是 多 少 (通过 所 有 的 步 又)? 

(c) 如 果 每 级 流水 可 以 分 解 成 次 级 流水 ， 那 么 能 够 为 最 高 性 能 提供 多 大 的 
周期 时 间 ? 

2. 如 果 在 每 个 时 钟 脉冲 到 来 时 有 0. Ins 的 时 钟 牌 斜 (不 确定 性 为 +0. 1ns)， 
回答 习题 1 中 的 问题 。 

3. 通过 人 允许 流水 中 断 延 时 S-a 个 周期 〈 而 不 是 S$ -1 个 周期 ) 来 一 般 化 S。 
的 方程 ， 此 时 S$ >a=1。 写 出 $,, 新 的 表达 式 。 








4. 一 个 流水 线 有 如 下 功能 单元 和 延 时 (不 包含 时 钟 开销 ): 














功能 单元 延 时 /ns 功能 单元 延 时 /ns 
0.6 D 0.7 
0.8 E 0.9 
C 0.3 F 0. 5 














功能 单元 B、D 和 下 可 以 细 分 成 两 个 相等 的 步骤 。 如 果 预 期 的 并 发 流水 线 的 
延 时 为 上 =0.2$ns， 时 钟 开销 为 0. Ins, ABA: 

(a) 最 优化 的 流水 分 割 数量 为 多 少 ? (下 伟人 为 整数 值 ) 

(b) 这 样 周期 时 间 为 多 少 ? 

(c) 利用 这 个 周期 时 间 计 算 流 水 线性 能 。 

5. 一 个 处 理 器 芯片 (1. 4cm x1. 4cm) 需要 生产 5 年 。 在 这 段 时 间 内 ， 预 计 
缺陷 密度 将 会 线性 地 从 0.5 个 缺陷 /em 降 为 0.1 个 缺陷 /cm 。20cm 的 唱 圆 成 本 
将 会 线性 地 从 5000 美元 降 到 3000 美元 ，30cm 的 晶 圆 成 本 将 从 10000 美元 降 
为 6000 美元 。 假 设 每 年 生产 好 的 器 件数 是 常数 。 那 么 应 该 选择 哪个 产品 工 
艺 呀 ? 

6. 深度 优化 减 小 单元 尺寸 和 数据 存储 开销 的 DRAM 芯片 设计 是 一 门 特 丈 的 
艺术 。 一 个 尺寸 为 135A? 的 单元 ， 计 算 DRAM 芯片 的 容量 。 工 艺 参 数 为 ， 产 率 
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为 80% , p, =0.3 个 缺陷 /em ， 特征 尺寸 为 0.1pm， 开 销 中 有 10% 的 驱动 和 放 
大 开销 ， 端 口 、 驱 动 和 保护 环 等 的 开销 为 20% ， 没 有 总 线 和 触发 器 。 

存储 器 的 尺寸 必须 是 侦 数 究 2， 计 算 容量 并 重新 计算 蕊 片 的 尺寸 ， 算出 实际 
总 面积 (除去 浪费 的 空间 ) 和 相应 的 成 品 率 。 

7. 利用 习题 6 中 的 假设 ,计算 512” x 的 芯片 的 成 本 。 假 设 一 个 直径 为 
30cm 的 品 圆 的 价格 为 15000 美元 。 

8. 假设 一 个 2. 3em? 的 芯片 可 以 以 5000 美元 的 成 本 在 一 个 20cm r R EE 
成 ， 也 可 以 以 8000 美元 的 成 本 在 30cm 的 唱 圆 上 完成 。 在 缺陷 率 分 别 为 0. 2 个 缺 
陷 /em 和 0.5 个 缺陷 /em 的 情况 下 比较 单个 芯片 的 有 效 成 本 。 

9. 根据 成 品 率 方程 的 推导 过 程 ,证 明 : 


























P(t) =eT 
10. 证 明 : 3 模块 系统 的 2 个 模块 失效 预 执行 时 间 ¢ 为 
t =T x log,2 


提示 : 有 3 个 模块 ， 任 意 2 个 或 3 个 模块 失败 ， 则 系统 失败 。 

11. 为 32 位 的 报 文 设计 汉 明 码 。 将 检测 位 放 在 最 终 报 文中 。 

12. 假如 想 为 64 位 报 文 设计 一 个 双 错 矫正 汉 明 码 。 那 么 需要 多 少 个 检测 位 ? 
请 解释 。 





3.1 引言 


处 理 器 有 多 种 类 型 和 不 同 的 用 途 ， 虽 然 很 多 人 都 将 目光 聚焦 在 服务 顺和 工作 
站 上 运行 的 高 性 能 处 理 器 ， 但 从 数量 上 讲 ， 高 性 能 处 理 器 只 占 每 年 生产 处 理 咒 的 
一 小 部 分 。 图 3. 1 所 示 为 世界 范围 处 理 带 年 产量 概况 〈 不 根据 价格 ) 。 
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16 位 和 32 位 MPU 
E psp 
IRA MPU 
E 计算 型 MPU 



































图 3.1 世界 范围 处 理 咒 年 产量 概况 呈 ” 




















本 章 和 处 理 器 细节 

本 章 包含 处 理 器 设计 上 的 问题 ， 特 别 是 面向 高 性 能 应 用 的 高 级 处 理 器 。 已 经 
确定 所 选 处 理 器 的 读者 以 选择 跳 过 一 些 细节 ， 如 分 支 预 测 和 超标 量 体 系 结构 控制 
这 些 部 分 ， 这 些 章节 已 用 星 号 (* ) 注 明 。 

这 些 细 节 对 于 选择 处 理 器 的 读者 来 说 也 是 重要 的 ， 主 要 由 于 以 下 两 个 原因 : 

1. 年 复 一 年 ，SoC 处 理 右 和 系统 都 在 癌 越 来 越 复杂 的 方向 发 展 ，SoC 的 设计 
者 需要 面 对 这 些 越 来 越 复 杂 的 处 理 絮 。 

2. 处 理 器 性 能 评估 工具 (如 SimpleScalar'”*! ) 提供 指定 问题 的 选项 ， 如 分 
文 预 测 和 相关 参数 。 

对 面向 应 用 指令 处 理 器 ( 见 本 书 1.3 节 ) 感 兴趣 的 读者 ， 可 以 在 本 书 6.3 
节 、6.4 节 、6.8 节 找 到 相应 的 材料 。 
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很 明显 ， 控 制 器 、 舱 入 式 控 制 器 、 数 字 信 和 号 处 理 器 等 是 占 统治 地 位 的 处 理 
器 ， 大 部 分 的 精力 都 放 在 设计 这 些 处 理 器 上 。 市 场 的 增长 规律 的 数据 也 能 同样 说 
HH SoC 和 大 型 微 处 理 吉 的 需求 在 以 接近 3 倍 的 微 处 理 需 单元 (Microprocessor Unit, 
MPU) 的 速度 增长 〈 见 图 3.2) 。 


i Wc eee 7 -…… MPU 市 场 增长 





























年 增长 率 (%) 
S 





























10 F 
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2 

0 
计算 型 MPU MPU SoC 
图 3.2 微 处 理 器 和 控制 器 的 年 增长 情况 ”1 





特别 在 SoC 类 型 的 应 用 方面 ， 处 理 器 本 号 只 是 一 个 占用 较 少 面积 的 小 组 件 ， 
SoC 设计 经 常 要 运用 许多 不 同类 型 适合 应 用 的 处 理 顺 。 通 常 ， 非 关键 处 理 顺 以 设 
计 文 件 〈 如 IP) 的 形式 获取 (购买) 并 集成 到 Soc 设计 中 。 因 此 ， 一 个 专用 的 
SoC 设计 可 以 整合 其 他 人 士 设 计 的 通用 处 理 器 核 。 表 3.1 给 出 了 利用 IP 优化 设 
计 以 获取 更 优 的 面积 -时 间 性 能 ，SoC 设计 中 选择 不 同 级 别 IP 有 各 自 的 相对 优势 。 
表 3.1 利用 了 IP 优化 设计 以 获取 更 优 的 面积 -时 间 性 能 



































设计 类 型 设计 级 别 相关 预期 面积 x 时 间 
定制 IP 硬 核 纯 物理 级 1.0 
综合 后 的 IP 固 核 物理 级 3.0 ~10.0 
IP 软 核 RTL 或 ASIC 级 10. 0 ~ 100. 0 











3.2 SoC 处 理 器 的 选择 


3.2.1 概述 


对 于 许多 SoC 设计 的 情况 ， 选 择 处 理 咒 是 最 重要 的 工作 ， 而 且 在 某 种 意义 上 
是 最 受 限 的 工作 。 处 理 带 必须 运行 一 个 特定 系统 软件 ， 所 以 为 了 满足 这 一 功能 ， 至 


Pa 
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少 需 要 选择 一 个 处 理 需 ， 通 常 是 通用 处 理 需 (General Purpose Processor, GPP), 在 
计算 限制 的 应 用 中 ， 最 基本 的 初始 设计 推力 是 确保 系统 包含 一 个 配置 和 设置 参数 后 
能 满足 需求 的 处 理 器 。 在 某 些 时 候 ， 可 能 会 结合 这 些 处 理 器 ， 但 这 通 带 是 一 种 优化 
的 考虑 ， 应 该 在 后 续 工 作 中 进行 。 在 决定 处 






















































































理想 

理 器 性 能 和 系统 性 能 时 ， 将 内 存 和 互联 组 件 EWED 
当做 一 种 简单 的 延迟 元 素 ， 这 些 被 视 为 理想 
化 组 件 ， 因 为 它们 的 行为 被 简化 ， 但 这 种 理 ee 
想 化 需要 保证 结果 特性 是 可 以 实现 的 。 理 想 | ERO 间 和 充足 的 带宽 ) 
化 的 组 件 的 性 能 应 该 保守 估计 。 

图 3. 3 所 示 为 SoC 上 的 处 理 器 模型 ， 是 
初始 化 设计 流程 中 的 处 理 器 模型 。 图 3.4 给 P f Pe jf P 
Hh Ce aA E WER A 根据 功能 和 实时 需求 
应 用 处 理 器 时 的 流程 有 所 不 同 ， 因 为 可 能 需 a al 
要 考虑 实时 性 需求 ， 它 必须 由 一 个 所 选 处 理 图 3.3 SoC 上 的 处 理 器 模型 


器 实现 ， 在 初始 化 SoC 设计 阶段 的 早期 就 应 该 成 为 主要 的 考虑 要 素 。 处 理 右 的 选 
择 和 配置 应 该 产生 一 个 看 似 完 全 满足 规格 说 明 上 列 出 的 性 能 和 功能 需求 的 初始 化 
SoC 设计 。 








( 初始 化 计算 和 实时 me ) 











计算 限制 其 他 限制 


| | 


— o) 明确 功能 特定 核 ， 
满足 主要 实时 限制 辨别 计算 需求 


| | 


m 选择 带 有 系统 软 |- 
参数 化 / 自 定制 件 的 通用 处 理 器 


| | 


人 | | K 



































评估 所 有 实时 限制 



































( 初始 化 设计 完成 ) 


图 3.4 GPRD SB aA A Tit Ee 
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3.2.2 实例 : 软 处 理 器 


“ 软 核 ” 指 的 是 一 个 比特 流 形式 的 指令 处 理 器 设计 。 它 可 以 用 于 编程 FPGA 
设备 ， 尽 管 这 需要 大 量 的 面积 、 能 耗 、 时 间 的 开销 。 但 运用 这 样 的 设计 有 以 下 4 
个 主要 的 原因 : 

1. 降低 系统 级 综合 的 成 本 。 

2. 在 仅 有 一 点 不 同 的 多 种 设计 中 进行 设计 重用 。 

3. 产生 一 个 微 处 理 器 /外 围 设备 组 合 的 精确 匹配 。 

4. 在 未 来 提供 保护 以 防止 微 控制 器 的 不 间断 更 新 。 

主要 的 指令 处 理 器 软 核 包 括 以 下 几 个 : 

Nios IU?! : 由 美国 Altera 公司 开发 ， 用 于 它们 的 FPGA 系列 和 ASIC, 

MicroBlaze' ”| : 由 美国 Xilinx 公司 开发 ， 用 于 它们 的 FPGA 和 ASIC 系列 上 。 

OpenRISCH®!, 一 个 免费 开源 的 软 核 处 理 器 。 

Leon!) ， 另 一 个 免费 开源 的 软 核 处 理 器 ， 实 现 了 一 个 完全 的 SPARC v8 指 
令 集 结构 。 另 外 它 还 包含 一 个 可 选 的 高 速 浮 点 部 件 GRFPU。GRFPU 可 以 下 载 但 
是 并 不 开源 ， 只 能 用 于 评估 和 研究 。 

OpenSpare'*! : 这 是 一 个 SPARC T1 核 ， 它 在 FPGA 上 支持 单线 程 和 四 线程 。 

这 些 指令 处 理 器 都 有 很 多 显著 特征 ， 但 实际 上 上， 它们 都 支持 一 个 32 RISC 
体系 结构 (OpenSPARC 除外 ， 它 是 64 位 的 ) ， 都 包含 单 发 射 五 级 流水 级 、 可 配 
置 的 数据 /指令 缓存 ， 同 时 支持 Gnu， 编 译 套装 (Gnu Compiler Collection, GCC) 
编译 工具 链 。 它 们 还 有 一 种 总 线 结构 ， 适 合 增加 额外 的 处 理 单元 当做 主 单元 或 从 
单元 来 加 速 运 算 ， 还 有 一 些 处 理 器 更 进一步 允许 增加 自 定 指令 或 协 处 理 器 。 

表 3.2 给 出 了 一 些 软 处 理 需 的 特征 ， 针 对 不 同 SoC 特征 进行 了 简单 的 比较 。 
值得 注意 的 是 ，MIPS 的 测量 数值 是 从 市 场 材 料 获 得 的 ， 可 能 会 根据 特定 处 理 器 
的 具体 配置 出 现 较 大 程度 的 波动 。 

表 3.2 软 处 理 器 的 一 些 特征 






























































Nios I (pe) [31 MicroBlaze!??! OpenSPARC!'87! Leon411051 
开源 B 否 是 是 
硬件 FPU 是 是 否 是 
总 线 标准 Avalon CoreConnect WISHBONE AMBA 
定点 除法 部 件 是 是 F 是 
自 定 协 处 理 器 (指令 ) 是 是 是 是 
FPGA 上 最 高 频率 /MHz 290 200 47 125 
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( 续 ) 
Nios I (He) "13! MicroBlaze!?>?! OpenSPARC!'87] Leon4 [1951 
FPGA 上 最 大 MIPS 340 280 47 210 
资源 1800 个 逻辑 单元 1650 个 slice 2900 个 slice 4000 个 slice 
估计 面积 1500A 800A 1400A 1900A 





























简单 比较 一 下 在 本 节 前 半 部 分 评估 的 一 个 32 位 处 理 器 ， 在 没有 浮 点 部 件 的 
情况 下 面积 为 60A， 只 是 表 3.2 所 示 的 软 处 理 器 的 1/30 ~1/15, 


3.2.3 ”实例 : 处 理 器 核 选择 


下 面 用 两 个 例子 来 阐明 图 3. 4 所 示 的 步 又。 

例 1 处 理 器 选择 ， 通 用 核 的 路 径 。 

考虑 图 3.4 所 示 的 “其 他 限制 ”的 路 径 并 关注 一 些 关 系 的 权衡 ， 对 于 这 种 
简单 的 分 析 方 法 ， 不 需要 去 理会 处 理 器 的 细节 ， 只 需要 假设 处 理 需 遵循 本 书 第 2 
章 所 述 的 A- 工 规律。 假设 一 个 初始 化 设计 拥有 单位 1 的 性 能 ， 运 用 了 100Krbe 的 
面积 ， 想 要 更 高 的 速度 和 更 多 的 功能 ， 那 么 如 果 我 们 将 性 能 加 倍 〈 将 处 理 器 的 T 
减 小 一 半 ) ， 这 将 使 面积 增加 到 400Krbe 并 且 功 耗 增加 8 倍 ， 每 个 rbe 像 以 前 一 
样 对 应 两 倍 的 功 耗 ， 所 有 的 性 能 由 内 存 系统 调控 。 将 性 能 (指令 执行 率 ) 加 倍 
的 同时 会 使 单位 时 间 缓 存 失效 次 数 加 倍 。 这 一 现象 对 已 实现 的 系统 的 性 能 影响 显 
著 ， 它 依赖 平均 缓存 失效 时 间 。 更 多 的 介绍 可 以 参见 本 书 第 4 章 。 

假设 缓存 失效 现象 显著 降低 实现 系统 的 性 能 ， 为 了 恢复 性 能 ， 需 要 增加 缓存 
的 容量 。 本 书 第 4 章 引 用 了 一 个 一 般 规 律 ， 降 低 一 半 的 缓存 失效 率 需要 增加 一 倍 
的 缓存 容量 。 如 果 初 始 化 缓存 容量 也 是 100Krbe， 那 么 新 的 设计 需要 600Krbe, 
并 且 它 的 功 耗 可 能 对 应 初始 化 设计 的 10 倍 左右 。 

这 样 是 否 值得 呢 ? 如 果 面 积 充足 且 功 耗 并 不 是 一 个 显著 的 约束 ， 那 么 可 能 这 
是 值得 的 。 更 快 的 处 理 器 缓存 组 合 可 以 提供 重要 的 功能 ， 如 额外 的 安全 检查 或 输 
入 /输出 (0) 能 力 。 在 这 一 点 上 ， 系 统 的 设计 者 要 参考 设计 规格 说 明 。 

例 2 处理 器 选择 ， 计算 核 路 径 。 

如 图 3.4 所 示 ， 目 前 只 考虑 了 计算 限制 型 路 径 的 权衡 比 ， 假 设 应 用 通常 情况 
下 是 可 并 行 的 ， 并 且 已 有 一 些 不同 的 设计 方式 。 一 种 是 10 级 流水 的 矢量 处 理 器 ， 
另 一 种 是 多 个 简单 处 理 器 。 应 用 在 矢量 处 理 器 (面积 为 300Krbe) 上 的 性 能 为 1， 
在 单个 简单 处 理 器 (面积 为 100rbe) 上 的 性 能 为 0.5。 为 了 满足 实时 计算 的 需 
求 ， 需 要 将 其 性 能 增加 到 1. 5。 

这 时 必须 评估 实现 性 能 目标 的 各 种 方法 : 方法 一 ， 增 加 流水 级 级 数 并 将 矢量 
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流水 线 数量 加 倍 ， 这 样 满足 了 性 能 的 目标 ， 面 积 达到 了 600Krbe 并 且 功 耗 翻 倍 ， 
而 时 钟 率 频 率 保 持 不 变 ; 方法 二 ， 运 用 一 个 互联 的 简单 处 理 咒 “阵列 ”， 这 种 
多 处 理 吕 阵列 受 限 于 内 存 和 互联 竞争 〈 本 书 第 5 章 有 更 多 这 些 效应 的 详 述 ) 。 
为 了 实现 性 能 目标 ， 需 要 至 少 4 个 处 理 咒 : 3 个 用 于 基本 目标 ，1 个 用 于 人 处理 
额外 开销 。 这 时 的 面积 为 400Krbe， 加 上 互联 面积 和 额外 的 内 存 共享 电路 ， 这 
可 能 还 要 增加 另外 的 200Krbe。 所 以 仍然 是 有 面积 或 功 耗 方面 一 致 的 两 种 方 
法 的 。 

那么 怎样 从 两 者 中 挑选 呢 ? 通常 可 供 选择 的 数量 比 2 更 大 。 这 就 取决 于 次 要 
的 设计 目标 ， 下 面 列 出 需要 考虑 的 事项 : 

1. 应 用 可 以 简单 地 被 划分 为 同时 支持 两 种 方法 吗 ? 
. 两 种 方法 有 哪些 软件 支持 (编译 融 、 操 作 系 统 等 )? 
. 可 以 运用 多 处 理 噩 方法 得 到 额外 的 容错 吗 ? 
. 多 处 理 需 方法 可 以 和 其 他 计算 路 径 结 合 吗 ? 
. 两 种 设计 改进 方法 中 的 一 种 是 否 有 显著 的 设计 实现 成 本 ? 
显而易见 ， 系 统 设计 者 有 很 多 问题 需要 回答 ， 工 具 和 分 析 仪 消除 了 不 符合 要 
求 的 方法 ， 在 这 之 后 ， 真 正 的 系统 分 析 开 始 了 。 

本 章 下 面 的 部 分 涉及 对 处 理 需 的 理解 ， 竺 别 是 微 处 理 吉 的 级 别 和 它 怎样 影响 
性 能 。 这 对 于 评估 性 能 和 应 用 模拟 工具 是 十 分 重要 的 。 
达到 性 能 指标 的 方法 

3.2 节 给 出 的 重要 应 用 的 实例 是 一 个 非常 简化 的 模型 。 那 么 应 该 怎样 设计 
来 符合 A-T* 设 计 规律 或 者 实现 更 好 的 性 能 呢 ? 其 中 的 秘诀 在 于 理解 设计 的 可 
行 性 ， 并 自如 地 从 设计 备 选 方案 中 选择 。 为 了 实现 这 一 点 ， 必 须 理 解 现代 处 理 
器 的 复杂 度 和 它 所 带 来 的 衍生 物 。 本 章 给 出 了 大 量 的 备 选 方案 ， 但 仅 列 出 了 最 
重要 的 ， 还 许多 其 他 技术 可 能 在 特定 环境 下 对 设计 者 有 效 。 理 解 的 作用 是 无 法 
替代 的 。 


3.3 ”处理 器 体系 结构 中 的 基本 概念 


处 理 器 体系 结构 由 处 理 器 指令 集 组 成 。 虽 然 指 令 集 暗 指 许多 实现 ( 微 体系 
结构 ) 细节 ， 具 体 的 实现 相 比 指令 集 需 要 的 还 要 更 多 。 它 是 物理 设备 面积 -时 间 - 
功 耗 限制 权衡 的 综合 ， 用 于 优化 特定 的 用 户 需求 。 

3.3.1 ESE 


对 于 大 多 数 处 理 器 来 说 ， 指 令 集 基于 一 组 用 于 存放 操作 数 和 地 址 的 寄存 器 ， 
这 些 寄存 器 组 的 大 小 为 8 ~ 64 字 甚 至 更 多 ， 每 一 个 字 由 32 ~ 64 位 组 成 。 另 外 ， 
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还 经 常会 有 一 组 额外 的 浮 点 寄存 器 (32 ~ 128 位 )。 一 个 典型 的 指令 集会 制定 一 
个 程序 状态 字 ， 它 由 多 种 类 型 的 控制 状态 信息 组 成 ， 包 括 由 指令 设置 的 条 件 码 
(Condition Code，CC) 。 普 通 指令 集 可 以 被 分 为 两 种 基本 类 型 : 加 载 /存储 (L 
S) 体系 结构 和 寄存 器 /内 存 (RAM) 体系 结构 。 

L/S 体系 结构 的 指令 集 包 括 RISC 微 处 理 器 。 在 执行 前 参数 必须 已 经 存在 寄 
存 器 中 。ALU 指令 的 源 操作 数 和 目标 都 指定 在 寄存 器 中 。L/S 体系 结构 的 优点 在 
于 执行 的 规则 性 和 指令 译 码 的 简单 性 ， 一 个 简单 时 序 的 简单 指令 集 易于 实现 。 

R/M 体系 结构 包含 的 指令 的 操作 数位 于 寄存 器 或 者 其 中 一 个 内 存 中 。 在 R 
M 体系 结构 中 ， 一 个 ADD 指令 可 以 将 一 个 寄存 器 的 值 和 内 存 中 的 值 相 加 ， 结 
存在 一 个 寄存 器 中 。R/M 指令 集 是 由 BM 大 型 机 和 Intel x86 (现在 成 为 Intel 
IA32) 演变 而 来 。 

上 § 今 集 的 权衡 是 针对 面积 -时 间 的 折 中 。R/M 方法 提供 了 更 精确 的 程序 表 
现 ， 较 L/S 方法 相 比 用 到 了 更 少 的 不 同 长 度 的 指令 ， 程 序 在 内 存 中 占据 更 少 的 空 
间 ， 指 令 缓 存 也 可 以 因此 做 得 更 epee Sane. eae 
小 。 多 种 指令 长 度 对 于 译 码 而 言 L 32 位 > 




















更 加 困难 ’ 多 种 指令 的 译 码 需要 LD/ST OP Rd Addr 
预测 每 一 条 指令 的 起 点 ，RZM 处 
理 器 需要 更 多 的 电路 (MER) ongl o |ual n | x 




















用 于 取 指 和 译 码 。 通 常 ，mtel 
x86 在 高 时 钟 频 率 下 的 成 功 实 现 
表明 没有 一 种 方法 的 优点 可 以 完 AMEUS 
全 战胜 男 一 种 方法 。 

图 3.5 给 出 了 一 些 典 型 处 理 
器 的 指令 长 部 和 格式 。RISC 机 
器 运用 固定 的 32 位 的 指令 大 小 16 位 | CDX| OP | Rd | RSI | Rs2 | Thumb 指 令 
或 者 具备 64 位 指令 扩展 格式 的 
32 位 格式 。Intel IA32 和 IBM 
System390 (现在 称 为 zSeries ) 
大 型 机 运用 了 多 种 长 度 的 指令 。 8 位 | OP 
Intel 用 8 位 、16 位 、32 位 的 指 
令 , IBM 用 16 位 、32 位 和 48 16 位 | Op a, s| Rs2 | Ry SORE 
位 的 指令 。 受 限 的 寄存 器 组 大 
小 为 Intel 字 节 大 小 的 指令 实现 32 位 OP Rd, s Address: base + offset 
提供 了 可 能 性 。 大 小 的 可 变性 
和 RAM 格式 提供 了 很 好 的 代码 图 3.5 一 些 典型 处 理 器 的 指令 长 度 和 格式 








32 位 | CDX| OP | Rd | Rsi | Rs2 Shift 












































R/M 机 器 ， 如 Intel IA32、IBM 大 型 机 
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密度 。 但 与 此 同时 译 码 也 变 得 越发 复杂 。 基 于 RISC 的 ARM 格式 是 一 种 有 趣 的 
折 中 方式 ， 它 提供 了 带 有 内 部 条 件 域 的 32 位 指令 集 ， 所 以 指令 可 以 被 条 件 执行 。 
另外 ， 它 还 提供 了 16 位 指令 集 (PK thumb 指令 )。 这 些 使 这 一 指令 集 既 具备 
译 码 的 高 效 性 又 具备 代码 的 高 密度 性 。 

此 今 集 扩展 的 近期 发 展 将 在 本 书 第 6 章 详 细 介绍 。 


3.3.2 ”一些 指令 集 习 惯 


表 3.3 给 出 了 指令 集 助 记 符 操作 ， 包 括 了 一 些 基 本 指令 操作 和 常用 助 记 符 表 
示 。 通 常 ， 不 同 的 数据 类 型 ( 整 型 和 浮 点 型 ) 会 运用 不 同 的 指令 。 为 了 指明 操 
作 特 定 的 数据 类 型 ， 操作 助 记 符 会 扩展 出 一 个 数据 类 型 的 指示 部 分 ， 所 以 
“OP. W” 可 能 指示 一 个 整数 型 的 OP 指令 ， 而 “OP. F” 指 示 一 个 浮 点 型 的 操作 。 
表 3.4 给 出 了 典型 的 数据 类 型 修饰 后 级。 一 个 典型 的 指令 形式 为 “OP. M 目标 ， 
源 操作 数 1， 源 操作 数 2”。 源 和 目标 所 指定 的 形式 为 一 个 寄存 器 或 者 一 个 内 存 地 
址 (通常 指定 为 一 个 基地 址 加 上 一 个 偏 移 地 址 ) 。 

表 3.3 指令 集 助 记 符 操作 






































助 记 符 we 作 助 记 符 操 fF 

ADD 加 法 STM 存储 多 个 寄存 器 

SUB 减法 MOVE | 传送 〈 寄 从 寄存 器 到 寄存 器 或 从 内 存 到 内 存 ) 
MPY 乘法 SHL EB 

DIV 除法 SHR 右 移 

CMP 比较 BR 非 条 件 分 支 

LD 加 载 (从 内 存 到 寄存 器 ) BC 条 件 分 支 

ST 存储 〈 从 寄存 器 到 内 存 ) BAL BY SANE 

LDM 加 载 多 个 寄存 器 














表 3.4 典型 的 数据 类 型 修饰 后 缀 ( OP. modifier) 























修饰 后 组 数据 类 型 修饰 后 组 数据 类 型 
B FP (8 位 ) F 浮 点 (32 位 ) 
H 半 字 (16 位 ) D 双 精 度 浮 点 (64 位 ) 
wW 字 (32 位 ) C 字符 或 8 位 形式 的 十 进 制 数 
3.3.3 分 支 


T (RFE) 管理 程序 的 控制 流 ， 它 们 通常 由 非 条 件 分 支 BR、 条 件 分 支 
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BC 和 子 程序 调用 和 返回 (连接 ) 组 成 。BC 指令 检测 条 件 码 CC 的 状态 ，CC 的 
状态 通常 由 程序 状态 或 控制 寄存 器 中 的 四 位 组 成 ， 通常 而 言 ，CC 由 ALU 指令 设 
置 来 记录 一 系列 结果 (编码 成 2 位 或 4 位 )。 例 如 ， 以 下 4 组 可 用 来 说 明 指 令 是 
否 产生 : 

1. 一 个 正 数 结 

2. 一 个 负数 结 

3. 一 个 零 结果 。 

4. 一 个 游 出 。 

图 3.6 给 出 了 使 用 条 件 码 的 BC 指令 实例 。 非 条 件 转移 BR 所 有 掩 码 屏 蔽 位 
设置 为 “1” 的 条 件 转移 方式 ， 可 以 让 每 个 指令 包含 一 个 屏蔽 位 来 让 所 有 指令 可 
以 条 件 执行 (就 像 ARM 指令 集 一 样 ) 。 


设置 条 件 码 

















指令 结果 对 应 的 条 件 码 设置 

P= 1000 
- N=0100 
0 Z=0010 
溢出 O=0001 

程序 状态 - 

一 条 件 码 
使 用 条 件 码 
屏蔽 位 





BC 一 个 BC 指令 检查 一 个 特定 的 条 件 或 几 个 位 结合 的 条 

件 。4 位 的 屏蔽 位 与 4 个 条 件 码 状态 PNZO 相 与 ， 所 
有 的 结果 位 进行 或 操作 决定 输出 结果 。 若 结果 为 
“1”， 则 分 支 跳 转 〈 例 如 是 成 功 跳 转 ) ; 如 果 结 
果 为 “0”， 则 分 支 不 跳 转 顺序 执行 指令 。 

















屏蔽 位 = 0000 是 不 跳 转 操作 ， 因 为 所 有 条 件 码 与 屏蔽 位 相 与 置 0 


屏蔽 位 =1111 是 非 条 件 分 支 指令 ， 因 为 前 面 计算 产生 的 结果 (P、N、Z、0) 
在 与 屏蔽 位 相 与 时 至 少 存在 一 位 为 真 


屏蔽 位 = 1010 ”选择 P 或 Z 作 为 条 件 ， 如 果 结 果 >0 则 分 支 跳 转 〈 如 BC.GE) 
屏蔽 位 = 0110 ”类似 地 ， 选 择 N 或 2 作为 条 件 ， 如 果 结 果 < 0 分支 跳 转 (如 BC.LE) 


























图 3.6 使 用 条 件 码 的 BC 指令 实例 


3.3.4 中断 和 异常 


很 多 豚 入 式 SoC 的 控制 器 拥有 外 部 中 断 和 内 部 异常 ， 这 意味 着 它 需要 中 断 管 
Hiir (BUSS) 程序 的 帮助 ， 这 些 装置 可 以 以 如 下 的 各 种 方式 进行 管理 和 支持 : 
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1. 用 户 请 求 与 被 迫 产生 。 前 者 经 常 涉及 一 个 错误 的 操作 ， 如 除 零 操作 ; 后 
者 通常 由 外 部 事件 引起 ， 如 设备 错误 。 

2. 可 屏蔽 与 不 可 屏蔽 。 前 者 可 以 通过 设置 中 断 屏 珊 位 屏蔽 ;后 者 不 能 屏蔽 。 

3. 中 止 与 恢复 。 除 零 这 样 的 操作 事件 会 中 止 普通 的 处 理 过 程 ， 之 后 处 理 吕 
可 以 恢复 操作 。 

4. 异步 与 同步 。 当 一 个 中 断 事件 在 程序 的 执行 过 程 中 触发 时 ， 中 断 事件 可 以 
由 异步 于 人 处理 器 时 钟 的 外 部 设备 产生 ， 也 可 以 由 与 处 理 带 时 钟 同步 的 时 钟 产 生 。 

5. 指令 间 与 指令 内 。 中 断 事件 可 以 产生 于 两 条 指令 之 间或 者 一 条 指令 执行 
的 过 程 中 。 

通常 而 言 ， 上 述 两 者 的 第 一 个 选项 容易 被 实现 而 且 可 能 在 当前 指令 完成 之 后 
被 处 理 。 设 计 者 为 了 约束 设计 需要 精确 的 例外 。 例 外 的 精确 的 意思 是 ， 在 例外 发 
生前 的 所 有 指令 都 补正 确 完 成 ， 而 例外 发 生 后 的 所 有 指令 都 没有 改变 状态 。 当 例 
外 被 处 理 结束 后 ， 后 续 的 指令 重新 开始 执行 。 

男 外 一 些 中 断 异常 事件 会 同时 产生 其 至 出 现 相互 家 套 的 形式 ， 所 以 需要 设置 
它们 的 优先 级 ， 控 制 咒 和 通用 处 理 需 拥有 特殊 的 部 件 来 处 理 这 些 问题 并 保留 系统 
的 现场 来 继续 执行 异常 。 


3.4 处 理 器 微 体 系 结构 的 基本 概念 


几乎 所 有 现代 处 理 融 都 应 用 了 一 种 指令 执行 流水 级 的 设计 。 简 单 的 处 理 需 每 
个 周期 只 发 射 一 条 指令 ， 其 他 处 理 器 可 以 发 射 多 条 。 很 多 对 和 人 式 和 信号 处 理 器 运 
用 简单 的 每 周期 发 射 单 指令 的 设计 方法 ， 但 是 大 多 数 现代 台式 机 、 笔 记 本 式 计算 
机 和 服务 器 都 使 用 的 是 每 周期 多 指令 发 射 的 方式 。 

每 一 个 处 理 器 〈 见 图 3.7) 具备 内 存 系统 、 执 行 部 件 (数据 通路 ) 和 指令 
部 件 。 缓 存 和 内 存 的 速度 越 快 ， 读 取 指 令 和 数据 CIF 和 DF) 所 需 的 周期 就 越 
少 ; 运算 部 件 越 多 ， 运 算 周期 (EX) 就 越 小 。 缓 存 和 执行 部 件 的 控制 是 由 指令 
部 件 完成 的 。 

































































指令 部 件 运算 部 件 内 存 管理 
指令 寄存 器 ALU as 
指令 缓冲 寄存 器 整数 /操作 缓存 目录 
译 码 器 ALU.F 缓存 
浮 点 : 
地 址 产生 寄存 器 主 存 
互 锁 uD 十 进 制 数 /字符 











图 3.7 处 理 器 部 件 
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流水 线 的 原理 和 控制 有 多 种 可 能 性 : 流水 线 可 以 在 每 一 周期 执行 一 条 或 多 条 
指令 ; 指令 的 译 码 和 /或 执行 可 能 遵循 程序 次 序 也 可 能 不 遵循 。 事 实 上， 在 多 线 
程 流水 线 中 不 同 程序 的 指令 也 可 能 在 同一 周期 执行 。 表 3. 5 给 出 了 一 些 流水 线 处 
理 需 的 类 型 。 





表 3.5 一 些 流水 线 处 理 器 的 类 型 


























类 型 每 周期 译 码 指令 数 TOF 通常 情况 相对 性 能 
局 部 或 静态 流水 线 1 或 更 少 所 有 动作 有 序 0.5 ~0.9 
典型 流水 线 1 所 有 D 和 所 有 WB 有 序 1.0 
乱 序 (执行) 流水 线 1 所 有 D 有 序 ，WB 无 序 1.2 
多 发 射 超标 量 结构 4 没有 顺序 限制 (只 有 依赖 顺序 ) 2.5 
多 发 射 VLIW 8 编译 器 排序 3.0 
多 线程 超标 量 结构 4 通常 为 2 个 线程 3.0 














不 管 是 什么 类 型 的 流水 线 处 理 器 , “停顿 (break)” 或 延迟 是 限制 流水 线性 
能 的 主要 因素 。 

出 现 延 迟 或 停顿 主要 由 以 下 4 种 原因 中 的 一 种 产生 : 

1. 数据 冲突 一 一 源 操作 数 不 可 用 。 这 种 情况 可 能 由 多 种 原因 产生 的 。 通 和 常 
当前 的 指令 需要 的 操作 数 是 前 面 未 完成 的 指令 的 结果 。 扩 展 操 作 数 的 缓冲 可 以 使 
这 种 效应 最 小 化 。 

2. 资源 竞争 。 多 个 连续 的 指令 共用 同一 资源 ,或 者 是 执行 时 间 较 长 的 指令 
延误 了 后 续 指 令 的 执行 。 增 加 资源 ( 浮 点 部 件 、 寄 存 器 端口 和 乱 序 执行 ) 可 以 
减少 竞争 。 

3. ISAT REIS ( 仅 在 顺序 执行 中 出 现 ) 。 当 指令 必须 按照 程序 顺序 完成 WB 
(CSE) 阶段 时 ， 任 何在 执行 阶段 (如 乘法 或 除法 指令 ) 的 延迟 可 能 会 推迟 流水 
线 中 执行 的 指令 。 

4. 分 支 。 流 水 线 由 于 分 支 的 结果 和 /或 在 流水 线 继续 执行 前 读 取 分 支 目 标 指 
令 而 延迟 。 分 支 预测 ， 分 支 表 和 缓冲 可 以 用 来 将 分 支 的 效应 最 小 化 。 

3.5 节 将 关注 简单 流水 线 的 控制 和 基本 流水 线 的 操作 。 这 些 简单 的 处 理 器 有 
最 小 的 复杂 度 ， 但 是 却 会 承受 最 多 的 突 发 事件 (大 多 数 由 分 文 产生 )。 接 下 来 将 
考虑 在 流水 线 中 和 部 件 之 间 负 责 管理 数据 传输 的 缓冲 。 由 于 最 优 的 流水 线 布局 
(流水 线 级 数 ) 与 停顿 发 生 的 频率 密切 相关 ， 将 关注 分 文 和 减 小 分 文 流水 线 延 到 
效应 的 技术 ; 然后 ， 关 注 多 指令 执行 和 更 健全 的 流水 线 控制 。 表 3.6 给 出 了 一 些 
SoC 处 理 右 的 特性 。 
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表 3.6 — SoC 处 理 器 的 特性 























SoC 指 令 集 类 W 指令 长 度 扩 展 
Freescale e600110!] PowerPC L/S 32 位 矢量 扩展 
ClearSpeed CSX600!®] 专 有 指令 集 L/S 32 位 SIMD 96 PE 
PlayStation 2147-1871 MIPS L/S 32 位 矢量 扩展 
AMD Geode! "4! 1A32 R/M 1 字 节 或 更 多 MMX, 3DNow! 

















3.5 指令 处 理 的 基本 元 素 


一 个 指令 单元 由 指令 定义 的 状态 寄存 器 、 指 令 寄 存 器 、 指 令 缓冲 器 、 译 码 融 
和 一 个 互 锁 部 件 组 成 。 指 令 缓冲 器 的 功能 是 将 指令 读 取 到 寄存 器 中 ， 使 指令 可 以 
快速 进入 指定 位 置 等 待 译 码 。 译 码 器 负责 控制 缓存 、ALU 和 寄存 器 等 。 在 流水 
线 系统 中 指令 部 件 的 排序 通常 由 硬件 严格 管理 ， 但 是 运算 部 件 可 能 被 微 程序 控 
制 ， 所 以 每 一 个 进入 运行 阶段 的 指令 会 有 一 个 与 自身 相关 的 微 指令 。 互 锁 部 件 的 
职责 是 保证 并 行 执行 的 多 条 指令 得 到 完全 顺序 执行 一 样 的 结 

由 于 指令 在 各 个 阶段 被 执行 ， 所 以 即便 是 简单 的 流水 线 处 理 器 也 有 许多 设计 
和 权衡 策略 。 

图 3. 8 所 示 的 指令 部 件 展 示 了 处 理 融 控制 或 指令 部 件 和 与 内 存 的 基本 交互 
通路 。 








































































































从 缓存 来 的 下 
A. 
| 正 地 址 Mi 送 往 缓存 的 地 址 
缓存 访问 
指令 缓冲 器 oie 
B. Sk Yes 
指令 寄存 器 jas, a 
JE AG 存储 互 锁 ka 
= 仓储 互 锁 地 址 ”数据 
Se 
C 译 码 器 
[or R1 |X/B 
D 数据 互 锁 




















图 3.8 指令 部 件 
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3.5.1 指令 译 码 器 和 互 锁 


当 一 条 指令 译 码 时 ， 译 码 器 必须 为 这 条 指令 提供 除了 控制 和 序列 信息 外 更 多 
的 信息 。 当 前 运行 的 指令 是 否 合理 ， 取 决 于 流水 线 内 的 其 他 指令 。 译 码 器 进行 以 
下 工作 ( 见 图 3.9): 

L 调度 当前 指令 。 当 产生 数据 相关 
(如 地 址 产生 或 AG 周期 ) 或 产生 例外 
(如 不 在 旁 路 转换 缓冲 TLB 中 ) 和 缓存 失 译 码 器 控制 信号 
效 时 指令 可 能 被 延迟 。 

2. 调度 后 续 指 令 。 为 了 保证 有 序 地 完 L 





成 ， 如 当前 指令 有 多 个 执行 周期 ， 后 续 的 “> 调度 当前 指令 
间 邻 可 能 被 延迟 。 | ”调度 下 条 指令 








一 > 预测 分 支 结果 (静态 ) 








3. 在 分 支 指令 处 选择 (或 预测 ) 路 径 。 

数据 互 锁 (图 3.8 所 示 的 组 件 D) 可 
能 是 译 码 器 的 一 部 分 ， 它 决定 寄存 器 的 依 
MER, FERI AG 和 EX 部 件 的 调度 。 互 锁 保 证 了 当前 指令 不 会 用 (依赖 ) 
一 个 前 面 指令 产生 的 不 可 用 的 结果 ， 直 到 这 个 结果 可 用 为 止 。 

执行 控制 器 对 后 续 的 指令 有 相同 的 作用 ， 确 保 在 执行 部 件 调度 完成 当前 指令 
前 ， 后 续 指 令 不 会 进入 流水 线 ， 并 且 如 果 需 要 保持 执行 的 顺序 。 

互 锁 的 效果 ( 见 图 3. 10) 在 于 每 一 条 指令 一 旦 开始 译 码 ， 它 的 源 寄存 器 
(作为 操作 数 或 地 址 ) 必须 与 前 面 发 射 但 没有 完成 的 指令 的 目标 寄存 器 比较 


图 3.9 译 码 需 功能 

























































































sme | op | on, | a 
*—m 
译 码 器 
Peace oe i are 7 
EX 延迟 








图 3.10 HÆ 
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(图 3. 10 所 示 的 C) 来 决定 依赖 关系 。 操 作 码 本 身 通常 确定 了 所 需 EX 的 周期 数 
(图 3.10 所 示 EX 框 ) 。 如 果 定 时 器 检测 的 超过 这 个 数目 ， 后 续 的 指令 必须 延迟 保 
证 执行 次 序 。 

存储 互 锁 (E) 针对 存储 地 址 与 数据 互 锁 的 功能 相同 。 在 一 个 存储 指令 中 ， 
地 址 被 发 送 至 互 锁 部 件 ， 那 么 后 续 从 AG (数据 读 请 求 ) RIB (指令 读 请 求 ) 
的 读 请 求 可 以 用 于 与 挂 起 的 存储 操作 比较 并 检测 依赖 关系 。 
3.5.2 5B 

旁 路 或 前 递 是 一 种 数据 通路 ， 它 们 将 结果 (通常 来 自 于 ALU) 传送 给 一 个 


使 用 者 (可 能 仍然 是 ALU) ， 在 此 过 程 中 绕 过 结果 寄存 器 (后续 被 更 新 ) 。 这 种 
技术 可 以 让 ALU 产生 的 结果 在 更 早 的 流水 级 应 用 。 
3.5.3 执行 单元 

如 同 缓存 ， 执 行 单元 〈 特 别 是 浮 点 单元 ) 在 性 能 和 面积 方面 显得 尤为 重要 。 
事实 上 ， 一 个 简单 的 浮 点 部 件 可 能 会 占据 与 一 个 基本 整数 处 理 器 核 〈 不 算 缓存 ) 
一 样 或 更 多 的 面积 。 在 简单 的 顺序 流水 线 中 ， 执 行 延迟 (运行 时 ) 是 决定 性 能 
的 重要 因素 ， 更 健壮 的 流水 线 会 在 整数 和 浮 点 操作 上 运用 相应 更 好 的 算数 算法 。 
表 3.7 给 出 了 一 些 典型 浮 点 部 件 的 面积 -时 间 权衡 关系 。 

表 3.7 一 些 浮 点 部 件 的 面积 -时 间 权 衡 关系 







































































实 M 字 长 /位 寄存 器 组 | 执行 时 间 (加 - 乘 - 除 )| 流水 R 部 件 面积 /A 
最 小 32 4 3-8-30 T 25 
典型 64 8 ~16 3-3-15 否 50 

扩展 算数 80 32 3-5-15 否 60 

多 发 射 64 ~80 40 以 上 2-3-8 是 200 以 上 

















表 中 ， 字 长 指 的 是 操作 数 的 大 小 (指数 和 位 数 )， 假设 为 EEE 754 标准 格 
式 。 执 行 的 时 间 为 估计 的 总 执行 周期 。 流 水 线 指 否 吐 量 ， 
否 文 持 执行 一 条 新 的 操作 。 最 后 一 列 是 实现 方式 的 部 件 估 计 需 要 的 面积 。 

最 小 的 实现 可 能 只 支持 专用 应 用 和 32 位 操作 数 ， 典 型 的 实现 为 一 个 支持 64 





即 该 实现 方式 每 周期 是 





位 操作 数 的 简单 流水 线 的 浮 点 单元 ;高 级 的 处 理 器 支持 扩展 IEEE 格式 (80 
位 ) ， 它 保证 了 中 间 计 算 的 准确 度 ; 多 发 射 实 现 是 一 种 典型 的 无 旁 路 实现 ， 如 果 
实现 支持 超过 4 发 射 ， 那 么 其 大 小 很 可 能 翻 倍 。 


缓冲 : 让 流水 线 延 迟 最 小 化 


通过 去 除 事件 产生 和 输入 数据 被 应 用 的 时 间 之 间 的 耦合 性 ， 绥 冲 可 以 改变 指 
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令 时 序 事件 的 发 生 ， 这 使 得 处 理 器 在 不 影响 性 能 的 前 提 下 可 以 承受 一 定 的 延迟 。 
缓冲 保存 数据 等 待 其 进入 一 个 阶段 ， 通 过 这 种 方式 来 实现 延迟 容忍 。 

缓冲 可 以 利用 平均 请 求 率 或 最 大 请 求 率 "'… ”来 设计 。 对 于 前 者 ， 知 道 了 请 求 
的 预期 数目 ， 就 可 以 权衡 缓冲 的 大 小 与 发 生 液 出 可 能 性 的 关系 。 溢 出 不 会 在 
CPU 内 部 缓冲 中 出 现 ， 但 是 当 缓 冲 已 满 且 又 来 了 一 个 新 请 求 时 ， 会 产生 “ 滋 
出 ” 。 此 种 情况 会 迫使 处 理 器 降 速 来 等 待 直到 有 空闲 的 缓冲 项 。 这 样 每 当 溢 出 状 
况 发 生 ， 处 理 带 流水 线 会 停顿 以 使 溢出 的 缓冲 访问 内 存 (或 其 他 资源 ) 。 例 如 ， 
存储 缓存 ， 通 常 就 是 运用 平均 请 求 率 。 

最 大 请 求 率 被 用 于 请 求 控制 性 能 的 资源 ， 如 在 线 (in-line) 指令 请 求 或 视频 
缓冲 的 数据 入 口 。 在 这 种 情况 下 ， 绥 冲 的 大 小 要 足够 充足 来 匹配 缓存 或 其 他 存储 
设备 的 处 理 器 请 求 率 。 一 个 合理 大 小 的 缓冲 可 以 使 处 理 器 在 缓冲 没有 用 完 其 条 目 
的 情况 下 继续 以 最 大 请 求 率 访问 指令 或 数据 。 


3.6.1 平均 请 求 率 缓冲 


假设 g 是 一 个 随机 变量 ， 描 述 对 于 一 个 资源 的 请 求 大 小 〈 挂 起 的 请 求 数 
量 ); 0 是 它 的 平均 分 布 ; c 是 它 的 标准 差 。 

Little 定理 : 平均 请 求 大 小 等 于 平均 请 求 率 (每 周期 的 请 求 次 数 ) 乘 以 处 理 
一 个 请 求 的 平均 时 间 5 1 。 

假设 一 个 缓冲 的 大 小 是 BF， 并且 定 义 缓冲 溢出 的 可 能 性 为 p。 根 据 蕊 尔 科 
夫 不 等 式 和 切 比 雪夫 不 等 式 ，p 有 两 个 上 界 。 




















马尔 科 夫 不 等 式 
Prob | g=BF} <£ 
切 比 雪夫 不 等 式 


Probl q>BF!| < 一 7 
(BF -Q)? 


运用 两 个 不 等 式 ， 对 应 给 定 洪 出 可 能 性 p， 可 以 保守 地 选择 BF， 两 个 不 等 
式 产生 了 两 个 上 界 ， 则 








BF =min (5, 0+) 


例 3.1 假设 想 要 确定 一 个 两 项 的 写 缓冲 的 效力 。 假 设 写 请 求 率 为 每 周期 
0.15， 完 成 一 个 存储 操作 的 期 望 周期 数 是 2， 应 用 Little 定理 ， 平 均 请 求 大 小 为 
0. 15 x2=0.3, 假设 o? =0.3 为 请 求 大 小 ， 可 以 计算 游 出 可 能 性 的 上 界 为 
=0. 10 


p = max (£, a ae 
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3.6.2 固定 或 最 大 请 求 率 的 缓冲 设计 


一 个 提供 固定 请 求 率 的 缓冲 在 概念 上 是 容易 设计 的 ， 主 要 的 考虑 在 于 屏蔽 访 
MAHER, WR AE 1 个 周期 处 理 一 项 而 需要 3 周期 去 访问 这 个 项 目 ， 那 么 需要 1 个 
至 少 三 项 的 缓冲 。 如 果 将 正在 处 理 的 项 目 考虑 进去 的 话 ， 则 至 少 需 要 4 项。 

通常 而 言 ， 最 大 请 求 率 缓冲 为 了 处 理 提 供 了 一 个 数据 或 指令 的 固定 率 。 这 样 
的 缓冲 有 很 多 ， 包 括 指令 缓冲 、 视 频 缓冲 、 图 形 和 多 媒体 缓冲 。 

一 般 情况 下 ， 当 每 周期 处 理 ; 个 项 目 , p 个 项 目 用 固定 的 访问 时 间 (access 
time) 从 存储 设备 中 取出 时 ,缓冲 大 小 BF 为 
access time( cycles) 

P 

初始 的 “1” 是 当前 周期 用 于 处 理 的 单 入 口 缓冲 的 修正 值 ， 在 某 些 情况 下 它 
可 能 并 不 需要 。 这 里 所 指 的 缓冲 是 为 了 缓冲 功能 部 件 或 译 码 器 入口 而 设计 的 
( 即 指令 译 码 器 ) 。 它 与 帧 缓冲 和 图 像 缓 冲 这 种 在 处 理 器 和 媒体 设备 之 间 转 换 的 
缓冲 并 不 一 样 ， 然 而 这 里 所 述 的 缓冲 的 原则 也 同样 适用 于 那些 媒体 缓冲 。 

















BF=1+ [sx 





3.7 DM: 减少 分 支 的 开销 





分 支 是 优化 处 理 占 性 能 的 难题 之 一 。 分 支 可 以 显著 地 降低 性 能 ， 如 一 个 条 件 
BGS (BC) 需要 检测 前 一 条 指令 所 设置 的 条 件 码 ， 在 分 支 指令 译 码 和 条 件 
码 设置 之 间 可 能 相差 很 多 拍 ， 如 图 3. 11 所 示 。 最 简单 的 一 种 策略 是 处 理 器 不 做 





























a 
x 
= 
ty 
iS) 
| IF | IF D | AG AG DF | DF | EX | EX i 
| | | | | | 
IF IF D AG AG TIF TIF 
so | | 
D D 
下 一 条 指令 =- 
经 过 调度 的 实际 情况 


图 3.11 由 分 支 指 令 (BC) 产生 的 延迟 
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任何 操作 ， 简 单 地 等 待 条 件 码 设置 的 输出 结果 并 推迟 条 件 分 支 指令 后 面 指 令 的 译 
码 ， 直 到 条 件 码 被 算出 。 当 分 支 指令 结果 为 转移 时 ， 在 原 分 配给 算术 指令 取 数 的 
时 间 段 获取 分 支 目标 。 这 个 策略 简单 易于 实现 ， 并 且 使 由 分 支 指令 引起 的 额外 的 
内 存 数据 传输 最 小 化 。 尝 试 猜测 特定 路 径 的 策略 更 加 复杂 ， 并 会 可 能 出 现 错误 引 
发 额外 的 取 指 。 

如 图 3. 11 所 示 ， 实 际 的 译 码 可 能 是 5 拍 延 迟 (如 一 个 5 拍 分 支 惩 罚 ) ， 而 这 
并 不 是 全 部 的 副作用 。 当 没有 跳 转 到 目标 路 径 时 ， 分 支 指令 后 的 第 2 条 指令 的 时 
序 也 会 因为 这 条 指令 没有 预 取 而 延 误 额 外 的 1 拍 。 

由 于 分 支 是 处 理 器 性 能 的 一 个 主要 限制 因素 291 ， 有 很 多 研究 致力 于 减少 
分 支 的 负面 效果 。 有 两 种 简单 的 和 两 种 实质 性 的 处 理 分 支 问 题 的 方法 。 两 种 简单 
的 方法 如 下 ; 

1 消去 分 支 。 对 于 确定 的 代码 序列 ， 可 以 将 分 支 替 换 成 其 他 的 操作 。 

2. 简单 的 分 支 加 速 。 这 种 方式 减少 了 目标 指令 的 取 值 和 条 件 码 决 策 所 需要 
的 时 间 。 

两 种 更 复杂 的 方法 是 这 两 种 简单 方法 的 一 般 化 : 

1. 分 支 目标 获取 。 在 一 个 分 支 指令 执行 之 后 ， 可 以 将 它 的 目标 指令 (VE 
的 地 址 ) 存在 一 张 表 里 ， 为 在 之 后 的 运行 中 避免 分 支 延迟 。 如 果 可 以 预测 分 支 
的 路 径 的 结果 并 且 已 有 缓冲 中 的 目标 地 址 ， 那 么 分 支 指令 的 执行 将 不 会 产生 
延迟 。 

2. 分 支 预测 。 可 以 通过 分 支 指令 的 相关 可 用 信息 来 预测 分 支 的 结果 并 开始 
执行 预测 的 程序 路 径 。 如 果 这 个 策略 是 简单 或 是 细微 的 ， 总 是 取 跳 转 条 件 分 支 的 
方向 ， 这 种 策略 被 称 为 固定 策略 ;如 果 这 个 策略 由 操作 码 的 类 型 或 目标 方向 决 
定 ， 则 这 种 策略 被 称 为 静态 策略 ， 如 果 这 个 策略 由 当前 程序 行为 决定 ， 则 这 种 策 
略 被 称 为 动态 策略 ( 见 图 3. 12) 。 


BC 
OP 历史 



































总 是 猜测 不 命中 方向 除非 操作 码 基于 BC 的 基于 BC 和 它 的 
为 非 条 件 分 支 (OP=BR) 类 型 猜测 历史 猜测 


图 3. 12 分支 预测 





分 文 管理 技术 见 表 3. 8 后 面 将 会 主要 关注 上 述 两 种 一 般 方法 。 
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3.7.1 分 支 目标 获取 : 分 支 目标 缓 ) 


分 支 目 标 缓冲 (Branch Target Buffer, BTB) 存储 了 前 面 执行 的 分 支 指令 的 
目标 指令 ， 如 图 3. 13 所 示 。 每 一 个 BIB 项 有 一 个 当前 指令 地 址 〈 仅 当 分 支出 现 
别名 情况 时 需要 ) 、 分 文 目 
标 地 址 和 最 近 目 标 指令 。 
因为 不 需要 等 待 地 址 产生 
的 完成 ， 目 标 地 址 可 以 使 
流水 线 中 的 目标 取 指 的 初 
始 化 更 快 。BTB 的 功能 : 
每 条 指令 在 BTB 索引 ， 如 
果 一 条 指令 地 址 与 BTB 中 
的 指令 地 址 匹配 ， 则 做 出 
一 个 预测 判断 这 个 地 址 的 



































e==v-- "on i” 


























ease imate 指令 地 址 分 支 目标 地 址 分支 目标 
2 sb wnat T 图 3.13 分 支 目标 缓 串 [BTB 有 指令 位 索引 ， 
采 预 测 结果 为 跳 伟 会 发 生 ， 特定 的 分 支 可 以 通过 引用 表 中 的 指令 地 址 域 
那么 目标 指令 会 作为 下 一 来 确定 (避免 别名 冲突 )] 








条 指令 ; 当 分 支 指令 被 处 理 完 ， 在 执行 阶段 ， 如 果实 际 目标 与 存储 的 目标 不 同 ， 
BTB 可 以 更 新 正确 的 目标 信息 。 

BTB 的 效果 取决 于 它 的 命中 率 一 一 当 分 支 指令 被 读 取 时 它 能 在 BTB 中 被 查找 
到 的 可 能 性 。512 项 的 BTB 的 命中 率 在 70% ~98% 之 间 ， 这 取决 于 不 同 的 应 用 。 

BIB 可 以 与 指令 缓存 结合 使 用 。 假 如 有 一 个 图 3. 14 所 示 的 配置 ，IF 阶段 可 
以 用 到 BTB 和 指令 缓存 ， 如 果 IF 阶段 BTB 命中 ， 那 么 先前 存在 BTB 中 的 目标 指 
令 会 取出 并 且 在 常规 调度 时 间 送 至 处 理 器 ， 处 理 器 在 执行 目标 指令 时 将 不 会 产生 
分 支 延迟 。 











指令 请 求 





图 3.14 典型 的 BTB 结构 (如果 BTB“ 命 中 ”， 那么 BTB 向 处 理 器 返回 目标 
指令 ，CPU 猜测 目标 ; WEE BTB“ 不 命中 ”， 那 么 缓存 返回 分 支 
指令 和 顺序 路 径 ，CPU 猜测 顺序 路 径 ) 
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BTB 提供 了 目标 指令 和 新 的 PC， 只 要 预测 正确 ,那么 分 支 指令 就 没有 延迟 。 
需要 注意 分 文 指 令 本 身 仍然 需要 从 指令 缓存 中 读 取 并 被 完全 执行 。 如 果 AG 结果 和 
CC 的 结果 与 预期 不 一 致 ， 那 么 所 有 从 目标 路 径 取 出 的 指令 都 必须 终止 。 很 明显 ， 
条 件 执行 〈 目 标 路 径 ) 指令 都 不 能 进行 写 结果 操作 ， 这 样 如 果 预 测 失败 可 以 恢复 。 


3.7.2 分 支 预测 


除了 简单 的 固定 预测 ， 还 有 两 类 猜测 分 支 是 否 跳 转 的 策略 : 静态 策略 ， 基 于 
分 文 指令 的 类 型 ;动态 预测 ， 基 于 最 近 的 历史 和 分 支 活 动 。 

即便 是 完美 的 预测 也 无 法 完全 取消 分 支 延迟 。 完 美的 预测 仅仅 将 条 件 分 支 的 
延迟 转换 成 非 条 件 分 支 的 延迟 ， 所 以 在 运用 更 稳定 ( 和 昂贵 ) 的 预测 器 之 前 使 
用 BTB 支持 是 非常 重要 的 。 

静态 预测 

静态 预测 基于 特定 分 支 操 作 码 或 分 支 目 标的 相关 方向 。 当 一 个 分 支 指令 译 码 
时 ， 针 对 分 支 的 结果 猜测 ， 如 果 决 定 分 支 跳 转 成 功 ， 那 么 流水 线 取 目标 指令 流 并 
开始 从 此 译 码 。 一 个 静态 分 支 预测 策略 如 表 3.9 所 示 。 
























































表 3.9 一 个 静态 分 支 预 测 策 略 
指 令 类 指 令 预测 成 功 (S) 预测 失败 (U) 
非 条 件 分 支 BR 总 是 从 不 
条 件 分 支 BC 反 向 猜测 S * 正 向 猜测 U” 
循环 控制 BCT 总 是 从 不 
调用 / 返 区 BAL 总 是 从 不 
* 当 分 支 目标 小 于 当前 PC 时 ,假设 这 是 一 个 循环 ， 跳 转 到 目标 地 址 ， 否 则 预测 顺序 执行 。 




















表 3.9 中 描述 的 策略 的 总 体 命 中 率 的 总 体 准确 率 为 70% ~80% 。 

动态 预测 : JUEK 

动态 策略 根据 历史 来 预测 ， 也 就 是 通过 一 个 分 支 指令 过 去 行为 的 序列 一 一 跳 
转 还 是 不 跳 转 一 一 来 决定 。 表 3. 10 中 ，Lee 和 Smith''* 给 出 了 当 预 测 基于 前 面 
运行 分 支 指令 的 结果 时 的 效果 。 预 测 的 算法 非常 简单 ， 在 策略 实现 中 运用 一 个 小 
的 上 /下 饱和 计数 器 ， 如 果 分 支 跳 转 ， 这 个 计数 器 增加 且 有 一 个 最 大 值 n， 一 个 
不 跳 转 的 分 支 使 这 个 计数 器 减 小 。 对 于 一 个 2 位 的 计数 器 , “00” 和 “01” 状态 
下 预测 分 支 不 跳 转 ， 在 “10” 和 “11” 状态 下 预测 分 支 跳 转 。 这 个 表 可 以 以 分 
离 或 综合 的 形式 存在 缓存 中 ， 如 图 3. 15 所 示 。 

表 3.10 n 位 计数 器 预测 准确 率 0] 
编 译 器 商务 科 学 高 级 
0 64.1 64.4 70.4 54.0 









































(2) 
n 编 译 ait 商 务 科 学 高 级 
1 91.9 95.2 86.6 79.7 
2 93.3 96.5 90. 8 83.4 
3 93.7 96. 6 91.0 83.5 
4 94.5 96.8 91.8 83.7 
5 94.7 97.0 92.0 83.9 














g£ 
en 指令 缓存 
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| 缓存 生 
分 支 在 这 一 行 的 结果 的 
历史 数目 


图 3.15 分支 历 史 计数 器 可 以 存在 指令 缓存 (上 面 ) 或 在 分 开 的 表 中 





由 于 表 的 组 织 结构 ， 两 个 不 同 的 分 支 指 令 可 能 对 应 相同 的 历史 ， 这 会 造成 别 
名 问题 。 

大 量 的 研究 表明 ( 见 表 3. 10) 。 第 一 ， 预 测 的 准确 率 随 着 位 数 的 增加 ， 增 加 
的 非常 缓慢 ; 第 二 ， 两 位 计数 器 的 准确 率 为 83.4% ~ 96.5% ， 较 表 3.9 中 一 位 
分 支 操 作 码 的 准确 率 高 很 多 ; 第 三 ， 标 准 测试 集 (SPECmarks) 的 预测 准确 率 在 
运用 大 型 表 的 情况 下 为 93. 5% 。 

动态 预测 : ”两 级 适应 

在 多 种 环境 中 双 峰 型 预测 的 预测 准确 率 被 限制 在 90% 左右 。Yeh 和 Patt 2 
运用 适应 型 分 支 预测 将 预测 准确 率 提 升 到 95% 。 基 本 的 方法 是 为 每 一 个 分 支 指令 
关联 一 个 移 位 寄存 器 ， 如 一 个 分 支 缓冲 表 。 这 个 移 位 寄存 器 记录 分 支 的 历史 ， 例 
如 ， 一 个 分 支 指令 两 次 跳 转 ， 两 次 不 跳 转 ， 那 么 移 位 寄存 器 记录 为 “1100”。 每 
一 种 移 位 寄存 器 的 状态 当做 地 址 索引 一 组 计数 器 ， 如 2 位 饱和 计数 器 。 每 当 移 位 
寄存 器 遇 到 “1100” 的 形式 ,那么 预测 结果 被 记录 到 相应 的 饱和 计数 器 中 。 如 
果 分 支 跳 转 ， 计 数 器 增加 ; 如 果 分 支 没 跳 转 ， 计 数 器 减 小 。 

适应 性 技术 可 能 需要 大 量 的 硬件 支持 ， 需 要 与 可 能 分 支 人 口 相关 的 历史 位 ， 
同时 还 有 存放 预测 结果 的 计数 器 表 。 大 型 程序 中 可 能 建立 稳定 的 历史 模式 ， 所 以 
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这 种 方法 在 大 型 程序 中 更 为 有 效 。 

Yeh 和 Patt 的 平均 测试 数据 显示 6 位 索引 的 适应 性 策略 的 预测 准确 率 可 以 达 
到 92% ，24 位 索引 的 可 以 达到 95% 。 值 得 注意 的 是 ，SPECmark 的 性 能 明显 高 
于 其 他 数据 。 

2 位 饱和 计数 器 在 所 有 程序 的 平均 预测 准确 率 可 达到 89.3% ， 然 而 图 3. 16 
的 数据 与 表 3. 10 中 的 数据 基于 不 同 程序 集 。 





























100 T T r 
平均 预测 “一 
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分 支 预测 准确 率 (%) 











历史 数据 
图 3.16 两 级 适应 预测 噩 的 分 支 预测 率 


适应 性 预测 在 各 种 程序 中 预测 准确 率 结果 在 本 书 参 考 文献 [267] 中 给 出 。 
89% 和 95% 的 预测 准确 率 看 起 来 没有 那么 明显 ， 但 是 错误 的 分 支 预测 延迟 占据 
大 部 分 的 总 体 的 运行 延迟 。 

动态 预测 : ”综合 方法 

双 峰 型 和 适应 e 令 路 径 可 能 性 不 同 的 信息 ， 因 此 
可 以 通过 增加 男 一 个 (2 位 饱和 ) 计数 器 的 (投票 ) 表 将 两 种 方法 结合 。 当 分 
支 结果 不 同 时 ， HRCA vA RE ALO 这 就 
是 综合 方法 ， 它 能 使 预测 准确 率 得 到 相应 提高 。 当 然 也 可 以 通过 结合 更 多 的 预测 
方法 来 构建 更 稳定 的 预测 器 。 

两 级 方式 的 缺点 在 于 控制 逻辑 和 两 个 序列 表 访 问 所 需要 的 硬件 开销 。 一 种 近 
似 的 方法 称 为 全 局 适应 预测 器 ， 它 对 于 所 有 分 支 指令 只 使 用 一 个 移 位 寄存 器 来 索 
引 一 个 单一 历史 表 ， 虽然 它 比 两 级 方式 快 ， 但 预测 准确 率 只 与 双 峰 型 预测 器 相 
当 。 但 是 可 以 将 双 峰 型 预测 器 和 全 局 预测 器 结合 创建 一 种 近似 综合 方法 ， 这 种 方 
法 的 结果 可 以 与 两 级 适应 型 预测 需 的 效果 相当 。 

表 3.11 给 出 了 一 些 典 型 处 理 器 的 分 支 预测 策略 。 表 3. 12 中 给 出 了 一 些 SoC 
处 理 器 分 支 预测 策略 ， 它 们 的 策略 明显 比 工 作 站 处 理 器 简单 。 
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表 3.11 一 些 典 型 处 理 器 的 分 支 预测 策略 
工作 站 处 理 器 预测 方法 目标 位 置 
AMD 双 峰 型 : 16K x2 位 BTB: 2K 项 
IBM G5 3 表 结 合 的 方法 BTB 
Intel Itanium 两 级 适应 目标 在 带 有 分 支 的 指令 缓存 中 
SoC 处 理 器 预测 方法 目标 位 置 
Intel XScale (ARM v5) 历史 位 BIB; 128 项 
R 3.12 —#E SoC 处 理 器 的 分 支 预测 策略 
SoC 策 了 略 BTB 项 数 分 支 历 史 项 数 
Freescale e60011011 动态 128 2K 
MIPS 74K! '831 动态 一 3 x256 
Intel PXA27x[5321 动态 128 一 
ARC 600121 静态 一 一 
3.8 更 健壮 的 处 理 器 : 矢量 、 超 长 指令 字 和 超标 量 体 系 


结构 


为 了 超越 每 条 指令 一 个 周期 ， 处 理 器 必须 能 够 同时 执行 多 条 指令 。 并 行 处 理 
顺 必 须 可 以 同时 访问 指令 和 数据 内 存 并 同时 执行 多 项 操作 。 能 实现 高 度 并 发 的 处 
理 需 称 为 并 行 处 理 器 ， 全 称 为 具备 指令 级 并 行 的 处 理 顺 。 

目前 仅 关 注 了 执行 单程 序 流 的 处 理 器 ， 它 们 仅 有 单一 的 指令 计数 器 所 以 是 单 
处 理 器 。 但 是 通过 指令 顺序 重 排 而 不 同 于 原来 的 程序 顺序 ， 并 发 指令 的 执行 就 可 
以 实现 了 。 

并 行 处 理 需 比 简单 流水 线 的 处 理 器 更 为 复杂 ， 对 于 这 些 处 理 顺 ， 性 能 在 很 大 
程度 上 取决 于 编译 顺 的 能 力 、 执 行 资源 和 内 存 系统 的 设计 。 并 行 处 理 带 依赖 编译 
器 检测 程序 中 的 指令 级 并 行 ， 编 译 需 必须 将 代码 重组 成 能 让 处 理 器 并 行 处 理 的 形 
式 ; 并 行 处 理 顺 需要 额外 的 执行 资源 ， 如 加 法 器 、 乘 法 器 和 一 个 高 级 的 内 存 系统 
提供 以 期 望 速度 执行 程序 所 需要 的 操作 数 和 指令 带宽 ”” 。 


3.9 矢量 处 理 器 和 矢量 指令 扩展 


矢量 指令 可 通过 以 下 方式 提升 性 能 : 

1. 减少 执行 程序 所 需 的 指令 数 (减少 指令 带宽 ) 。 

2. 将 数据 组 织 成 有 规律 的 序列 ， 使 硬件 可 以 高 效 地 处 理 。 

3. 简化 循环 结构 ， 因 此 消除 循环 执行 的 控制 开销 。 

矢量 操作 需要 扩展 指令 集 ， 同 时 (为 了 更 好 的 性 能 ) 扩展 功能 部 件 、 
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顺 堆 特别 是 系统 的 内 存 。 AL 
矢量 通常 源 于 大 型 数据 数组 ， 
是 传统 数据 缓存 不 能 很 好 管理 的 一 
种 数据 结构 ， 访 问 数组 元 素 被 一 段 
地 址 距离 〈 称 为 步 幅 ) DF, 2R PAn 
填 一 段 时 间 局 部 性 很 小 的 数据 进入 
数据 缓存 。 这 样 在 这 段 数 据 被 替换 
之 前 就 不 会 重复 使 用 〈 见 图 3. 17) 。 
矢量 处 理 器 通常 包含 矢量 寄存 器 
(Vector Register, VR) 人 硬件 来 消去 内 
存 计算 过 程 的 耦合 性 。VR 组 是 所 有 矢 
量 操作 数 的 源 和 目标 ， 在 许多 实现 中 ， 图 3.17 对 于 内 存 中 的 不 同 数组 ,访问 内 存 时 
访问 绕 过 缓存 ， 所 以 缓存 只 包含 标量 不 同 的 访问 方式 运用 不 同 的 步 幅 
数据 ， 标 量 数据 不 会 在 VR 中 使 用 ( 见 图 3. 18)。 
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一 | 矢量 加 载 和 
存储 指令 

矢量 

寄存 器 
内 存 

标量 浮 点 

寄存 器 

C+) aean 
尾数 寄存 器 



































图 3.18 矢量 处 理 器 中 基本 存储 设备 (矢量 LD/ST 通常 绕 过 数据 缓存 ) 





3.9.1 矢量 功能 部 件 


R 通常 由 8 个 或 者 更 多 寄存 器 组 组 成 ， 每 个 寄存 器 包含 16 ~ 64 个 矢量 元 
素 ， 而 每 一 个 矢量 元 素 是 一 个 浮 点 字 。 
VR 通过 特殊 的 加 载 和 存储 指令 访问 内 存 ， 矢 量 执 行 部 件 通常 为 每 一 个 指令 
类 安排 成 独立 的 功能 部 件 ， 可 能 包括 以 下 几 种 : 
© 加 法 /减法 ; 
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。 乘法 ; 

。 除法 或 倒数 操作 ; 

。 逻辑 运算 〈 包 含 比较 ) 。 

由 于 矢量 的 目的 是 管理 一 组 操作 数 的 操作 ， 一 旦 矢量 操作 开始 ， 它 可 以 以 系 
统 频率 继续 执 形 。 图 3. 19 给 出 了 一 个 4 级 功能 流水 线 的 近似 时 序 。 一 个 矢量 加 
(VADD) 序列 穿 过 了 加 法 器 的 各 个 阶段 ， 在 四 个 加 法 阶段 之 后 第 一 个 元 素 的 
VRI 和 VR2 ( 标 为 VR1.1 和 VR2.1) 的 和 存 于 VR3 〈 实 际 上 是 VR3.1) 中 。 


流水 线 SHINEE a gy KAN a Nita 









































ea > 送 至 VR3.1 
一 =~| VR2.1 
VR1.2 
| 一 一 送 至 VR3.2 
VR2.2 送 至 
v3 一 送 至 VR3.3 
VR2.3 
VR1.4 
Y > 送 至 VR3.4 
VR2.4 
a 4 t ty ts te i t; 
时 间 


图 3. 19 一 个 4 级 功能 流水 线 的 近似 时 序 


功能 部 件 的 流水 线 对 矢量 功能 部 件 比 对 标量 功能 部 件 更 重要 。 延 迟 对 标量 功 
能 部 件 是 最 重要 的 。 

矢量 处 理 的 优势 在 于 需要 很 少 的 指令 来 执行 天 量 操作 。 一 个 单 〈 重 登 ) R 
量 加 载 操作 将 信息 存 和 人 VR。 人 矢量 操作 以 系统 的 时 钟 频率 执行 〈 每 执行 一 个 操作 
需要 一 个 周期 )， 一 个 重合 的 存储 操作 与 后 续 指 令 的 操作 重 全 进行 ( 见 图 3. 20)。 

示例 : 


VADD V3, V2, VI 
VMPY V6, V4, V5 


/一 最 后 一 个 ADD 周 期 








| | | | [eel 

vee | | | | |] 
VMPY 上 -一 才 es — ea 
4 个 VR 读 端口 开始 乘 、、、 如 果 仅 有 两 个 
读 端口 则 延迟 





图 3.20 VADD 和 VMPY 示例 (对 于 逻辑 上 独立 的 矢量 指令 而 言 ，VR 组 的 访问 路 径 数目 
和 矢量 部 件 可 能 会 限制 性 能 。 如 果 有 四 个 读 端 口 ，VMPY 可 以 在 第 二 个 周期 开始 ， 
否则 如 果 有 两 个 读 端 口 ， 那 么 VMPY 必须 等 到 VADD 用 完 读 端口 后 才 开始 ) 
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矢量 加 载 (Vector, Load, VLD) 必须 完成 后 才 可 以 被 使 用 〈 见 图 3. 21) ， 否 则 
处 理 右 不 得 不 识别 内 存 系统 中 操作 数 延 迟 的 时 刻 。 


示例 

VADD V1, source(n) 
VADD V2, V3, V4 
VADD V5, V1, V6 


VLD oe = ss: 村 ... 一 一 
VADD i = a T — | | 
VADD 矢量 功能 延迟 = 广 -一 


图 3.21 VLD 和 VADD 示例 [虽然 独立 的 VLD 和 VADD 可 以 并 行 的 进行 (因为 有 充足 
的 VR 端口 ) ,但 运用 VLD 结果 的 操作 直到 VLD 完成 才能 开始 ] 
































处 理 器 并 行 执行 多 个 (独立 的 ) 矢量 指令 的 能 力也 受到 VR 端口 和 矢量 执行 
单元 数目 的 限制 。 每 一 个 并 行 矢量 加 载 和 存储 都 需要 一 个 VR 端口 ， 矢 量 ALU 
操作 需要 多 个 端口 。 

在 一 些 情况 下 ， 每 周期 执行 多 于 一 条 矢量 计算 运算 操作 是 可 能 的 。 通 过 旁 
路 ， 一 个 矢量 计算 操作 的 结果 可 以 直接 用 于 后 续 矢 量 操作 的 操作 数 而 不 用 先 通过 
VR。 图 3. 22 和 图 3. 23 所 示 的 这 种 操作 称 为 链接 。 如 图 3. 22 所 示 ，ADD-MPY 
链 每 个 功能 部 件 有 四 个 阶段 ， 如 果 ADD-MPY 没有 链接 ， 那 么 每 个 指令 需要 4( 启 
动 ) +64( 元 素 /VR) =68 个 周期 ， 也 就 是 需要 136 个 周期 。 在 有 链接 的 情况 下 ， 
周期 数 减少 到 4( 加 启动 ) +4( 乘 启动 ) + 64( 元 素 /VR) =72 个 周期 。 

对 于 这 两 条 指令 
VADD VR3, VR1, VR2 


VMPY VRS, VR3, VR4 
时 序 : VR1.3 VR1.2 























A pi 送 至 VR3.1 
el | | VR23 | VR22 | 
| | | | | 
结果 同时 送 至 
MPY 和 VR5 
VMPY | | | | | 
| vR | | | | 
+ 
VR4.1 


图 3.22 矢量 链 的 影响 


管理 内 存 访 问 是 挖掘 矢量 处 理 絮 潜在 性 能 的 一 个 重要 部 分 。 由 于 算术 操作 每 
秒 完成 一 次 ， 运 算 代 码 重复 地 访问 内 存 将 新 的 矢量 写 入 VR 并 将 结果 写 人 内 存 。 
一 般 来 说 ， 内 存 必 须 具备 足够 的 带宽 来 支持 至 少 每 周期 两 字 的 频率 (一 个 读 一 
个 写 ) ， 甚 至 每 周期 3 字 (两 个 读 和 一 个 写 )。 这 样 的 带宽 允许 两 个 矢量 读 和 一 
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个 矢量 写 的 初始 化 和 运行 

并 行 执 行 ， 同 时 执行 一 个 

矢量 计算 操作 。 如 果 内 存 f 

到 VR 的 内 存 带 宽 不 充 VR VADD VMPY 
足 ， 处 理 器 在 一 个 矢量 操 ae 

作 完 成 后 需要 闲置 ， 直 到 











矢量 加 载 和 存储 完成 。 处 
理 器 设计 者 要 让 一 个 矢量 图 3.23 “矢量 链 通路 
处 理 扩展 适应 标量 设计 
( 见 表 3. 13 ) ， 特 别 是 内 存 系统 ， 要 适应 快速 矢量 执行 的 需求 ， 而 不 是 简单 地 将 
标量 处 理 扩展 移植 到 标量 处 理 吉 设计 中 。 这 是 一 个 巨大 的 挑战 。 如 果 内 存 系 统 的 
华 宽 不 够 充足 ， 矢 量 处 理 人 硬件 所 带 来 的 性 能 提升 会 相应 减少 。 

表 3.13 ”内存 可 能 需求 ( 访问 /处 理 器 周期 数 ) 

















指 令 数 o 
标量 部 件 1.07* 1.0* 
矢量 部 件 0.0+0 2.0 ~3. 0® 











“通用 的 ; 可 通过 指令 缓冲 、 指 令 缓存 减少 。 
D 与 其 他 需求 相 比 相对 小 。 
O 最 少 需 要 一 个 撩 量 加 载 (VLD) 和 一 个 矢量 存储 (VST) 并 行 ， 两 个 VLD 和 VST 并 行 更 合适 。 


图 3. 24 给 出 了 通用 矢量 处 理 顺 的 主要 数据 通路 ， 展 示 了 矢量 处 理 需 的 主要 
















































































指令 ,| 
指令 缓存 | 地 上 指令 部 件 
标量 地 址 
VR 
内 存 | 部 件 
内 存 
缓冲 
































| 
功能 部 件 
图 3.24 通用 矢量 处 理 器 的 主要 数据 通路 
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元 素 。 功 能 部 件 (加 、 减 等 ) 和 两 个 寄存 带 组 (矢量 和 标量 或 者 通用 寄存 器 ) 
通过 一 个 或 更 多 的 总 线 连接 。 如 果 人 允许 链接 (JL 3.23), 那么 3 个 〈 或 更 多 ) 
操作 数 访问 会 同时 从 VR 发 出 并 且 结果 传 回 VR。 男 一 个 总 线 连接 VR AIAN FF 
冲 。 系 统 的 其 他 部 分 指令 缓存 、 数 据 缓 存 、 通 用 寄存 器 等 与 常见 流水 线 处 理 带 中 
的 一 致 。 





3.10 超 长 指令 字 处 理 器 


多 发 射 处 理 器 有 两 种 广义 分 类 : 静态 调度 和 动态 调度 。 大 体 上 这 两 种 比较 类 
似 。 指 令 组 之 间 的 依赖 关系 将 被 评 佑 ， 不 存在 依赖 关系 的 组 将 同时 调度 到 多 个 执 
行 单元 。 对 于 静态 调度 处 理 器 ， 这 一 检测 过 程 由 编译 器 完成 ， 指 令 被 组 装 成 指令 
包 ， 在 运行 时 被 译 码 和 执行 。 对 于 动态 调度 的 处 理 器 ， 独 立 指令 的 检测 同样 可 能 
在 编译 时 进行 ， 代 码 可 以 被 合理 地 编排 成 优化 的 执行 形式 ， 但 是 最 终 的 指令 选择 
(被 执行 或 发 送 ) I TIN Aa HY AE Ee RUE, DAN EE ACD Sat hE 
有 的 指令 表示 和 形态 上 与 较 慢 的 流水 线 处 理 器 没有 显著 差别 。 静 态 调 度 的 处 理 器 
必须 有 一 些 额 外 的 信息 ， 明 确 或 隐 含 地 指示 指令 包 的 边界 。 

正如 本 书 第 1 章 提 到 的 ， 美国 Multiflow 和 Cydrome 公司 的 处 理 器 定义 了 早期 
VLIW 机 器 。 这 些 机 器 所 用 的 指令 字 包 含 10 个 指令 段 ， 每 一 段 控制 一 个 指定 
的 执行 单元 ， 这 样 寄 存 吉 组 有 多 个 端口 来 支持 对 多 种 执行 部 件 的 同时 访问 。 为 了 
容纳 多 种 指令 段 ， 指 令 字 通常 超过 200 位 ( 见 图 3.25)。 为 了 避免 分 支 给 性 能 带 
来 的 明显 限制 ， 一 种 新 的 称 为 跟踪 调度 的 技术 被 开发 出 来 。 通 过 这 种 跟踪 调度 技 
术 ， 分 支 的 动态 频率 被 大 大 降低 。 分 支 对 可 能 之 处 进行 预测 ， 当 达到 可 信 成 功率 
时 被 预测 的 路 径 成 为 一 个 更 大 基本 块 的 一 部 分 。 这 个 过 程 一 直 进 行 ， 直 到 一 个 大 
小 合适 的 块 ( 没 有 分 支 的 代码 ) 可 以 被 有 效 调度 。 如 果 在 执行 这 段 代 码 时 出 现 
了 意料 之 外 的 (或 不 可 预测 的 ) 分 支 ,在 基本 块 结束 时 ， 运 用 一 个 目标 基本 块 
修改 正确 的 结果 。 
































操作 1 操作 2 
eee = 
OP1 RI | R2 | R3 OP2 RI | R2 | R3 | BR 








图 3.25 部 分 VLIW 格式 〈 每 一 段 并 行 地 访问 一 个 单一 集中 的 寄存 顺 组 ) 








最 近 多 发 射 处 理 需 的 研究 方向 倾向 于 更 少 的 并 行程 度 ， 然 而 同时 多 线程 
(Simultaneous Multithreading，SMT) 的 使 用 呈 上 升 趋势 。 在 SMT 结构 中 ， 多 个 程 
序 (AFE) 共用 处 理 器 执行 硬件 〈 加 法 器 、 译 码 器 等 ) ， 但 拥有 自己 的 寄存 器 
组 、 指 令 计 数 器 和 指令 寄存 器 。 同 一 芯片 上 的 两 个 2 路 SMT 处 理 器 ( 核 ) 可 以 


wW 
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支持 4 个 程序 同时 运行 。 

图 3. 26 所 示 为 一 个 通用 VLIW 处 理 器 的 主要 数据 通路 。 寄 存 器 端口 的 广泛 
运用 为 VLIW 处 理 器 提供 了 所 需 的 同时 访问 数据 的 能 力 ， 这 意味 着 寄存 器 组 可 能 
是 处 理 器 的 瓶颈 。 



































功能 部 件 

















图 3.26 一 个 通用 VLIW 处 理 器 的 主要 数据 通路 














3.11 超标 量 处 理 器 





超标 量 处 理 器 也 可 以 通过 图 3. 26 所 示 的 数据 通路 方式 实现 。 通 常 这 种 处 理 
咒 运 用 多 总 线 与 寄存 器 组 和 功能 部 件 连接 ， 并 且 每 一 个 总 线 服 务 于 多 个 功能 半 
件 ， 这 可 能 会 限制 最 大 并 行 度 但 可 能 减少 需要 的 寄存 器 端口 数 。 

不 论 检测 过 程 是 静态 的 还 是 动态 的 ， 指 令 内 和 指令 间 的 相关 性 检测 的 问题 在 
理论 上 是 一 样 的 (虽然 在 实际 影响 上 不 同 ) 。 下 面 将 回顾 指令 独立 性 的 理论 。 在 
超标 量 处 理 中 ， 独 立 性 检测 必须 在 硬件 执行 ， 这 必然 使 控制 硬件 和 实现 处 理 占 的 
选择 更 加 复杂 化 。 本 书 还 将 讨论 相对 于 其 他 方法 更 为 具体 和 复杂 的 方法 。 


3.11.1 数据 相关 
在 乱 序 执行 中 ， 两 条 指令 1, 和 7 了 (i 的 执行 顺序 先 于 7) 相关 可 能 有 三 种 。 首 
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先是 所 谓 的 写 后 读 (Read After Write, RAW) 相关 或 真相 关 ， 当 1 的 目标 和 1 的 
源 相同 时 出 现 ， 即 


这 是 一 个 数据 或 地 址 的 相关 。 
男 一 种 情况 是 当 指 令 的 目标 与 前 一 条 指令 的 源 相 同时 发 生 的 相关 ， 当 以 下 情 
况 时 发 生 : 








D, =S; 
D; = Sz; 


当 指令 序列 中 的 一 条 指令 被 延迟 ， 后 续 的 指令 被 允许 超前 执行 而 改变 了 前 
面 指令 源 寄 存 器 的 内 容 ， 这 时 发 生 上 述 相关 ， 如 下 面 的 例子 所 示 (R3 是 目标 寄 
TTAR): 


L, DIV R3, R1, R2 
L ADD R5, R3, R4 
I, ADD R3, R6, R7 


其 中 ， 第 二 条 指令 被 第 一 条 指令 的 除法 操作 延迟 ; 如果 人 允许 第 三 条 指令 在 它 
的 操作 数 可 用 时 立即 执行 ， 那 么 可 能 改变 第 二 条 指令 计算 用 的 寄存 器 (R3), X 
种 相关 称 为 读 后 写 (Write After Read, WAR) 相关 或 顺序 相关 ， 因 为 仅 在 允许 
乱 序 执行 时 才 会 发 生 。 

最 后 一 种 情况 为 指令 元 的 目标 和 指令 了 的 目标 相同 ， 即 

D, =D, 

在 这 种 情况 下 ， 指 令 /可 能 在 指令 1 之 后 完成 ， 这 时 寄存 器 中 的 结果 是 由 指令 J, 
产生 的 而 不 是 由 /产生 的 。 这 种 相关 称 为 写 后 写 


J TRARA 
(Write After Write, WAW) 相关 或 输出 相关 ， 在 某 














种 程度 上 它 是 值得 讨论 的 。 如 果 指 令 工 产生 的 结 1 OP Di Su, Say 
在 指令 /产生 新 的 同 目的 的 结果 之 前 没有 被 后 面 的 ” 指 $ 窗 0 | : 
§ 令 用 到 ， 那 么 图 3. 27 所 示 的 第 一 个 指令 了 是 不 需 OP, Sys5Sy 
要 的 。 这 种 类 型 的 相关 通常 可 以 由 编译 器 优化 消 — o 
除 ， 在 这 里 不 予 讨论 。 下 面 举 两 个 例子 。 图 3.27 检测 指令 间 得 独立 性 
例 1 
DIV R3, R1, R2 
ADD R3, R4, R5 
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例 2 
DIV R3, RI, R2 
ADD R5, R3, R4 
ADD R3, R6, R7 


例 1 是 元 余 指令 (DIV) 的 情况 ; 而 例 2 含有 输出 相关 ， 但 也 有 真相 关 ， 一 
且 真 相关 解决 ， 输 出 相关 也 随 之 解决 。 代 码 中 相关 出 现 得 越 少 ， 代 码 的 并 行 性 就 
越 强 ， 整 个 程序 的 执行 也 就 越 快 。 


3.11.2 检测 指令 并 行 


指令 并 行 的 检测 可 以 在 编译 时 、 运 行 时 或 两 者 同时 进行 ， 很 明显 同时 运用 编 
译 器 和 运行 时 便 件 来 文 持 并 行 指令 运行 能 达到 最 好 的 效果 。 编 译 器 可 以 进行 循环 
展开 并 创建 更 大 的 基本 块 大 小 来 减少 分 支 。 然 而 ， 完 全 的 机 器 状态 只 有 在 运行 时 
才能 得 到 。 例 如 一 个 由 除 、 取 数 和 除 (divide, load, divide) 组 成 的 指令 串 ， 如 
果 中 间 的 加 载 指令 产生 了 缓存 失效 ， 那 么 这 个 序列 产生 的 明显 的 资源 相关 可 能 并 
不 存在 。 



































表 3.14 一 些 SoC 处 理 器 的 重 命名 特性 











SoC 重 命名 缓冲 大 小 保留 站 数目 
Freescale e600 16GPR, 16FPR, 16VR 8 
MIPS 74K 32CB 5 








注 : GPR， 通 用 寄存 器 ; FPR， 浮 点 寄存 器 ; VR， 人 矢量 寄存 器 ; CB， 完 成 缓冲 。 
指令 在 译 码 时 检查 相关 性 ， 如 果 发 现 一 个 指令 与 其 他 前 面 的 指令 没有 相关 而 
且 此 时 有 可 用 的 资源 ， 那 么 这 条 指令 将 发 射 到 











功能 部 件 。 所 有 指令 检查 的 数目 决定 指令 窗口 < 
的 大 小 ( 见 图 3.28)， 假 设 指令 窗口 有 NN 条 指 | 
令 并 在 任意 给 定 周期 有 M 条 指令 被 发 射 ; 在 | 发 射 1 条 
下 一 个 周期 ， 后续 的 厅 条 指令 进入 缓冲 ， 又 oes | _ 
有 和 条 指令 被 检查 ， 在 一 个 周期 内 可 能 有 M ee 
条 指令 被 发 射 。 | r 

顺序 和 输出 相关 可 以 用 充足 的 寄存 器 来 消 
除 。 当 其 中 一 种 相关 被 检测 时 ， 重 命名 相关 寄 
存 器 到 另 一 个 对 指令 集 不 可 见 的 寄存 器 是 可 能 | 后 续 的 M 条 指令 在 下 个 周 其 

加 入 窗口 等 待 发 射 


的 。 这 种 重 命名 类 型 需要 寄存 器 组 扩展 ， 包 含 
重 命名 寄存 器 。 一 个 常见 的 处 理 器 可 能 由 指令 图 3.28 指令 窗口 
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集 指定 的 32 个 寄存 絮 组 扩展 为 包含 重 命名 寄存 右 的 共 45 ~ 60 个 寄存 需 的 寄存 器 
组 (一 些 SoC 处 理 器 的 重 命名 特性 见 表 3. 14) 。 
图 3. 29 给 出 了 一 个 以 级 流水 的 处 理 器 ， 它 是 检查 NN 条 指令 并 发 射 MM 条 指令 


的 整体 布局 。 


每 周期 M 条 指令 
每 周期 2M 个 每 周期 M 个 


















—2— 


每 周期 M 条 指令 


图 3.29 一 个 以 级 流水 处 理 器 


在 指令 窗口 里 的 入 条 指令 都 是 发 射 的 候选 ， 发射 与 否 取 决 于 指令 是 否 独 立 
和 执行 资源 是 否 可 用 。 

如 果 处 理 器 只 支持 两 条 L/S 指令 、 一 条 浮 点 指令 和 一 条 定点 指令 。 那 么 指 
令 窗口 的 译 码 器 必须 选择 这 种 L/S 类 型 的 指令 发 射 。 所以， 即便 三 条 L/S 指令 
都 是 独立 的 也 不 能 发 射 。 

调度 是 将 指定 的 资源 在 指定 的 时 间 分 配给 特定 指令 和 它 的 操作 数 的 过 程 ， 调 
度 可 以 由 功能 部 件 本 身 在 执行 时 通过 集中 或 分 散 的 方式 来 完成 。 前 一 种 方式 称 为 
控制 流 调度 ， 后 一 种 方式 成 为 数据 流 调 度 。 在 控制 流 调度 中 ， 在 译 码 阶段 解决 相 
关 ， 指 令 被 保留 (不 发 射 ) 直到 相关 被 解决 。 在 数据 流 调 度 系 统 中 ， 当 指令 被 
译 码 后 离开 译 码 阶段 ， 在 操作 数 和 功能 部 件 可 用 之 前 保留 在 缓冲 中 。 

早期 的 机 器 通过 控制 流 或 数据 流 来 确保 指令 乱 序 执行 的 正确 性 。CDC6600523 
运用 了 控制 流 方法 ，IBM360 Model 91524 是 第 一 个 用 数据 流 调 度 的 系统 。 


3.11.3 一 个 简单 的 实现 


本 方 观 察 一 个 简单 的 调度 实现 。 虽 然 它 的 设置 值 N=1、M =1, 但 它 允许 乱 
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序 执行 并 说 明了 管理 相关 的 基本 策略 。 

考虑 一 个 带 有 多 种 功能 部 件 的 系统 ， 它 的 每 一 次 执行 可 能 需要 多 个 周期 ， 运 
用 L/S 结构 ， 假 设 有 一 个 集中 的 单一 寄存 器 组 为 功能 部 件 提供 操作 数 。 

假设 最 多 N 条 指令 已 经 被 派遣 执 行 ， 必 须 决 定 译 码 需 当 前 如 何 发 射 一 条 指 
S, EAR N -1 条 未 发 射 指令 的 情况 下 发 射 一 条 单一 的 指令 与 在 还 剩 N 条 指令 
的 情况 下 发 射 是 一 样 的 。 

运用 一 种 有 时 被 称 为 数据 流 方法 或 功能 部 件 
标签 前 递 的 方法 ， 这 种 方法 由 Tomosu- 
lo 提出， 并 用 他 的 名 字 命名 。 Ap [or | > | 5 | 

寄存 器 组 的 每 一 个 寄存 器 都 被 扩展 ， 


加 
RN EEE 
包含 一 个 标签 ， 它 指示 产生 结果 放 人 指定 

| 








寄存 器 的 功能 部 件 。 同 样 的 ， 每 一 个 功能 
部 件 有 一 个 或 者 多 个 保留 站 〈 见 图 3.30) 。 aed 
保留 站 包含 一 个 其 他 功能 部 件 或 者 图 3.30 保留 站 与 功能 部 件 相 连 (包括 指令 
寄存 器 的 标签 ， 或 者 它 可 以 包含 需要 的 。 操作 码 和 数据 值 或 一 个 挂 起 状态 等 待 进入 
值 。 一 个 特定 指令 的 操作 数 的 值 不 需要 功能 部 件 相关 的 数据 值 ; 它们 起 到 了 
对 要 发 射 至 保留 站 的 指令 有 效 ， 一 个 值 重 命名 寄存 器 的 作用 ) 
可 能 被 一 个 特定 寄存 器 的 标签 蔡 代 ， 直 到 这 个 值 可 用 ， 保 留 站 会 一 直 等 待 。 由 于 
保留 站 保存 了 当前 可 用 数据 的 值 ， 它 起 到 了 重 命名 寄存 髓 的 作用 ， 因 此 这 个 方案 
避免 了 顺序 和 输出 相关 。 
控制 分 散在 功能 部 件 中 ， 每 一 个 保留 站 有 效 指定 了 自己 的 功能 部 件 ， 一 个 泽 
点 乘法 吉 的 两 个 保留 站 是 不 同 的 功能 部 件 标 签 : 乘法 器 1 和 乘法 器 2 ( 见 图 3.31)。 
如 果 操 作 数 可 以 直接 进入 乘法 器 ， 那 么 会 有 另 一 个 标签 : 乘法 器 3。 一 旦 一 对 操 





























































































































1 | 1 | 
A A D 标签 Si S2 D 标签 Si S2 
保留 站 
D | 标签 D | 标签 
标签 
寄存 器 Fl F2 









































| | 


图 3.31 数据 流 。 每 一 个 保留 站 由 保存 5, 和 5, 的 值 (如 果 可 用 ) 
的 寄存 器 或 指示 值 从 哪里 产生 的 标签 组 成 ) 








一 
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作 数 有 一 个 指定 的 功能 部 件 标签 ， 这 个 标签 会 一 直 伴随 这 个 操作 数 对 指导 操作 完 
成 。 任 何 取决 于 这 个 结果 的 部 件 (或 寄存 器 ) 都 要 进行 一 个 功能 部 件 标签 的 复 
制 ， 并 且 从 总 线 上 的 广播 得 到 结果 。 

对 于 前 面 的 例子 ， 有 


DIV. F R3, R1, R2 
MPY. F R5, R3, R4 
ADD. F R4, R6, R7 


初始 时 DIV. F 指令 同 RI 和 R2 的 值 发 射 到 除法 部 件 〈 假 设 它们 是 可 用 的 ， 
从 共用 的 总 线 中 取 到 ) 。 一 个 出 发 部 件 标 签 被 发 射 到 R3 ， 表 示 此 刻 它 没有 可 用 的 
值 。 在 下 一 个 周期 ，MPY. 下 与 R4 的 值 和 一 个 Ra 的 [DIV] 标签 被 发 射 到 乘法 部 
件 。 当 除法 部 件 完成 时 ， 它 将 自己 的 结果 广播 ， 因 为 它 持 有 “出 发 部 件 ” 的 标 
签 ， 所 以 结果 通知 乘法 部 件 的 保留 站 。 同 时 ， 加 法 部 件 同 RE 、R7 中 的 值 发 射 并 
开始 加 法 ，R4 从 加 法 器 处 得 到 标签 ， 由 于 乘法 器 已 经 拥有 R4 的 旧 值 ， 所 以 没有 
顺序 相关 发 生 。 

在 数据 流 方法 中 ， 目 标 指 向 的 寄存 器 的 结果 可 能 从 来 不 实际 到 达 这 个 寄存 
器 。 事 实 上 ， 基 于 一 个 特定 寄存 器 加 载 的 计算 可 能 会 继续 被 传递 给 各 种 功能 计 
件 ， 所 以 在 值 保存 前 ， 一 个 基于 新 计算 序列 〈 一 个 新 的 加 载 指令 ) 的 新 值 可 以 
运用 这 个 目标 寄存 器 。 这 种 方法 在 一 定 程度 上 避免 了 中 央 寄 存 器 组 的 应 用 ， 因 此 
避免 了 寄存 器 顺序 和 输出 相关 。 

对 于 顺序 和 输出 相关 是 和 否 是 一 个 严重 的 问题 存在 一 些 争 论 汪 ; 。 当 寄存 器 组 
更 大 时 ， 一 种 优化 编译 器 可 以 分 配 利 用 这 些 寄存 器 组 ， 避 免 寄存 器 -资源 相关 的 
出 现 。 当 然 所 有 的 方案 都 没有 解决 真相 关 (第 一 种 类 型 )， 然 而 大 型 寄存 器 组 有 
它 自身 的 缺陷 ,特别 是 由 于 中 断 引 起 的 保存 和 还 原 时 的 通路 问题 。 
研究 3.1 时 序 样 例 











对 于 代码 序列 
L DIV. F R3, R1, R2 
L MPY. F R5, R3, R4 
L ADD. F R4, R6, R7 


假设 执行 时 有 三 个 独立 的 浮 点 部 件 : 


除法 8 周期 
乘法 4 周期 


加 法 3 周期 
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之 后 显示 数据 流 的 时 序 。 

对 于 这 种 方法 ， 可 以 得 到 以 下 分 析 结 

译 码 器 发 射 7 一 除法 部 件 
R1 一 除法 保留 站 
R2 一 除法 保留 站 
TAG_DIV—R3 

开始 DIV. 下 指令 

译 码 器 发 射 疡 一 乘法 部 件 











第 1 个 周期 











= 








第 2 个 周期 TAG_DIV 一 乘法 部 件 
R4 一 乘法 保留 站 
TAG_MPY—>R5 
乘法 器 等 待 
PENG AE BIN, ETB 
第 3 个 周期 R6 一 加 法 保留 站 








R7 一 加 法 保留 站 

TAG_ ADD 一 R4 

第 4 个 周期 开始 ADD. F 指令 

加 法 部 件 请 求 下 个 周期 广播 (授权) 
加 法 部 件 本 周期 完成 

第 7 个 周期 加 法 部 件 结果 一 R4 

除法 部 件 请 求 下 个 周期 广播 (授权 ) 
除法 部 件 本 周期 完成 
除法 部 件 一 R3 














第 6 个 周期 



































第 9 个 周期 



































Ta 除法 部 件 一 乘法 部 件 

第 11 个 周期 开始 MPY. F 指令 

第 14 个 周期 乘法 完成 并 请 求 数据 广播 (授权 ) 
第 15 个 周期 乘法 部 件 结果 一 R5 





就 目前 的 实现 而 言 ， 发 射 逻辑 被 分 散 到 保留 站 中 ， 当 同一 周期 多 个 指令 将 要 
被 发 射 时 ， 必 须 有 多 个 分 开 的 总 线 来 传递 信息 : 操作 、 标 签 / 值 1、 标签 / 值 2 和 
目标 。 假 设 保留 站 与 功能 部 件 相 连 ， 如 果 为 了 实现 方便 集中 保留 站 ， 那 么 设计 将 
会 与 一 个 改进 的 控制 流 或 计 分 板 技术 相似 。 

动作 总 结 

可 以 总 结 出 以 下 基本 规则 : 

1 如 果 数 据 值 可 用 ， 译 码 器 发 射 指令 和 数据 值 到 保留 站 ， 和 否则 发 送 指令 和 
寄存 名 标签 。 

2. 目的 寄存 右 〈 指 令 指定 ) 获得 功能 部 件 标 签 。 

3. 持续 发 射 指令 直到 一 种 保留 站 满 为 止 ， 未 被 发 射 的 指令 保持 挂 起 状态 。 
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4. 任何 与 未 发 射 指令 或 挂 起 指令 相关 的 指令 必须 保持 挂 起 状态 。 
3.11.4 乱 序 指令 的 状态 保存 


乱 序 执行 会 导致 机 器 状态 明显 的 混乱 ， 即 使 代码 被 正确 地 运行 。 如 果 发 生 了 
中 断 或 者 某 种 异常 〈 甚 至 可 能 是 一 次 错误 的 分 支 预测 ) ， 判 断 异 常 的 准确 来 源 并 
明晰 怎样 为 后 续 指 令 的 处 理 保存 和 恢复 机 融 状 态 会 变 得 非常 模糊 不 清 。 有 以 下 两 
个 基本 方法 可 以 解决 这 一 问题 : 

1. 限制 编程 模型 。 这 一 方法 只 适用 于 中 断 并 且 会 包含 一 个 叫做 非 准 确 中 断 
的 设备 ， 非 准确 中 断 仅 说 明 一 个 例外 在 代码 中 的 某 个 区 域 发 生 ， 而 不 进行 更 深 的 
隔离 。 这 种 简单 的 方法 可 能 适用 于 仅 使 用 真实 〈 没 有 虚拟 ) AFRE S RARA 
式 设 备 ， 通 常 不 适用 于 虚拟 内 存 处 理 器 。 

如 果 一 个 加 载 指令 访问 到 一 个 当前 内 存 没有 的 页 而 后 续 的 指令 已 经 在 执行 
时 ， 那 将 产生 灾难 性 的 后 果 。 当 缺失 的 页 面 被 加 载 后 控制 交还 给 进程 ， 这 一 加 载 
过 程 可 能 与 它 相关 的 指令 同时 进行 ， 但 其 他 在 这 一 加 载 指令 前 执行 的 指令 不 应 被 
重复 执行 ， 所 有 的 控制 可 能 被 摘 乱 。 唯 一 的 选择 是 在 进程 运行 之 前 将 这 一 进程 需 
要 的 页 面 全 部 加 载 到 内 存 中 。 对 于 实际 可 行 的 编程 环境 ， 如 大 型 科学 应 用 ， 这 种 
方法 是 一 种 解决 方案 。 

2. 创建 一 个 写 回 阶段 ， 保 护 寄 存 器 组 使 用 的 顺序 性 ， 或 者 至 少 允许 这 样 一 
个 有 序 寄 存 器 组 的 重 构 。 

为 了 提供 一 个 程序 执行 的 顺序 模型 ， 必 须 有 一 些 能 够 合理 管理 寄存 器 文件 状 
态 的 机 制 ， 成功 的 关键 "”” 是 有 效 


地 管理 寄存 器 组 和 它 的 状态 。 如 果 
§ 令 有 序 执行 ， 那么 结果 存在 寄存 结果 寄存 器 文件 
器 文件 中 ( 见 图 3.32)， 较 早 完成 的 
指令 需要 保持 挂 起 状态 等 待 在 它 之 图 3.32 简单 寄存 器 文件 的 组 织 形式 
前 发 射 而 未 完成 的 指令 ， 这 样 会 牺牲 性 能 。 

另 一 种 方法 运用 了 重 排序 缓冲 ( 见 图 3. 33) ， 结 果 乱 序 到 达 重 排序 缓冲 ， 但 
是 以 程序 顺序 写 回 有 序 寄存 器 文件 ， 这 样 一 来 保护 了 寄存 器 文件 的 状态 。 为 了 避 
免 重 排序 缓冲 的 冲突 ， 可 以 如 图 3. 34 所 示 的 那样 将 缓冲 分 布 到 各 个 功能 部 件 上 。 
这 些 技术 允许 指令 的 乱 序 执行 但 是 保护 了 寄存 器 组 的 有 序 写 回 。 


重 排序 缓冲 Palle 


图 3.33 集中 的 重 排序 缓冲 方法 
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结果 功能 部 件 1 一 > | 重 排序 缓冲 1 
结果 功能 部 件 2 —— | 重 排序 缓冲 2 ao 

JURRIEN 

寄存 器 文件 操作 数 


结果 功能 部 件 一 一 | 重 排序 缓冲 7 


图 3.34 分 散 的 重 排序 缓冲 方法 





3.12 ”处理 器 的 演变 和 两 个 实例 


下 面 来 看 看 处 理 需 的 早期 概念 ， 然 后 看 看 最 新 的 高 性 能 处 理 融 的 实例 。 
3.12.1 软 核 和 固 核 处 理 器 设计 : IP 形式 的 处 理 器 


应 用 于 SoC 和 其 他 特定 应 用 领域 的 处 理 器 ， 需 要 比 通用 人 处理 器 概念 考虑 更 
多 。 设 计 者 仍然 需要 运用 给 定 晶 体 管 数目 实现 尽 可 能 高 的 性 能 。 目 标 是 实现 易于 
适用 多 种 情况 的 高 效 的 模块 化 设计 ， 好 的 设计 具备 以 下 几 点 : 

1. 一 个 有 效 运 用 数据 指令 内 存 (代码 密度 ) 和 数据 内 存 (一 些 操作 数 大 
小 ) 的 指令 集 。 

2. 一 个 对 于 广泛 的 应 用 保持 性 能 的 有 效 微 体系 结构 。 

3. 一 个 相对 简单 、 节 约 晶体 管 的 结构 。 

4. 一 定数 目的 协 处 理 器 扩展 ， 易 于 添加 到 基本 处 理 器 中 ， 可 以 包含 浮 点 和 
Ket APT o 

5. 对 于 所 有 处 理 器 配置 完全 的 软件 支持 ， 包 括 编译 器 和 调试 器 。 

ARM1020 处 理 器 是 这 类 处 理 器 设计 中 的 经 典 。 为 了 改进 代码 密度 ， 它 运用 
了 支持 16 位 和 32 位 指令 的 指令 集 ， 图 3.35 给 出 了 ARM1020T 处 理 器 的 数据 通 
路 。 调 试 和 系统 控制 协 处 理 器 和 /或 矢量 和 浮 点 协 处 理 器 可 以 直接 添加 来 改进 性 
fig, ARM 总 线 也 是 一 种 SoC 应 用 的 标准 。 

其 指令 时 序 是 简单 的 六 级 流水 ， 如 图 3. 36 所 示 。 由 于 结构 简单 ， 它 的 峰值 
性 能 可 以 达到 每 周期 一 条 指令 (忽略 缓存 失效 ) 。 
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指令 缓存 
32KB 





指令 MMU/TLB 




















图 3.35 ARM1020T 处 理 器 的 数据 通路 ™ 














整数 流水 线 





EX/ | EX/ 
IF1 | IF2 | ID AG | DF WB 


























图 3.36 ARM1020T 处 理 器 指令 时 序 





3.12.2 ”高 性 能 定制 处 理 器 


当 设 计 高 性 能 工作 站 时 ， 相 对 于 性 能 ， 设 计 工 作 是 次 要 的 (但 进入 市 场 的 
时 间 更 为 重要 ) 。 这 导致 大 型 设计 团队 聚焦 定制 电路 、 时 钟 、 算 法 和 微 结 构 ， 以 
此 按 计 划 达 到 性 能 要 求 。Freescale e600 处 理 器 就 是 一 个 例子 ( 见 图 3.37)。 这 
样 的 处 理 器 运用 了 本 章 所 述 的 所 有 设计 技术 ， 除 此 之 外 还 有 以 下 几 种 : 

1. 由 于 有 大 量 可 用 面积 (晶体管)， 可 以 实现 更 多 的 分 支 表 、 多 个 执行 部 
件 、 多 发 射 和 完全 的 指令 乱 序 执行 。 

2. 时 钟 频率 更 高 、 周 期 时 间 缩 短 、 一 些 基 本 的 操作 (如 指令 读 取 ) 占用 多 
于 一 拍 的 时 间 ， 总 之 由 于 周期 缩短 ， 流 水 线 变 得 更 加 复杂 ， 时 序 图 会 明显 变 得 更 
长 (更 多 步骤 ) 。 

3. 因为 容量 大 的 缓存 需要 更 长 的 访问 时 间 ， 需 要 实现 一 层 或 多 层 的 更 大 容 
量 的 缓存 来 文 持 小 容量 的 一 级 缓存 。 
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分 派 部 件 





GPR 发 射 


矢量 功能 部 件 浮 点 功能 部 件 





通用 功能 部 件 
16FPR 重 命名 
GPR 浮 点 寄存 器 
1MB 混 合 


M 
Al 3. 37 Freescale e600 处 理 器 的 数据 通路 1 


16VR 重 命名 缓冲 






































3.13 总 结 


流水 线 处 理 器 已 经 成 为 从 大 型 机 到 微 处 理 器 几乎 所 有 机 融 实 现 的 选择 。 高 密 
BE VLSI 逻辑 技术 ， 加 上 高 密度 内 存 让 日 趋 复杂 的 处 理 带 实 现 变 成 可 能 。 

在 模拟 流水 线 处 理 器 的 性 能 时 ， 为 每 条 指令 分 配 一 个 基本 时 间 然 后 增加 由 代 
码 运行 产 生 的 相关 引发 的 延迟 ， 这 些 相关 通常 由 分 文 、 数 据 依 赖 或 有 限 的 执行 
资源 引发 。 对 于 每 种 类 型 的 相关 都 有 相应 的 实现 策略 缓解 相关 的 影响 。 例 如 ， 
实现 分 支 预测 策略 ， 减 缓 了 分 支 延 迟 的 作用 。 然 而 ， 相 关 的 检测 由 互 锁 来 实 
现 ， 互 锁 逻 辑 包 括 译 码 器 检测 相关 并 确保 机 絮 按 照 代码 执行 顺序 合理 地 进行 逻 
辑 操 作 。 


I 











3.14 习题 


1. 仿照 研究 3. 1， 列 出 下 面 三 条 指令 序列 的 时 序 : 
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ADD. F R1, R2, R3 
SUB. F R3, R4, R5 
MPY. F R3, R1, R7 


2. 在 互联 网 上 查找 3 种 最 新 的 处 理 器 产品 并 列 出 它们 的 相关 参数 。 

3. 假设 一 个 矢量 处 理 器 在 运行 矢量 代码 时 达到 了 2.5 的 加 速 比 ， 在 一 个 可 
矢量 化 代码 率 为 50% 的 应 用 中 ， 在 一 个 非 和 撩 量 的 机 器 上 的 整体 加 速 比 是 多 少 ? 
对 比 一 个 每 周期 能 最 大 运行 4 条 算数 操作 的 VLIW 的 期 望 加 速 比 (VLIW 和 矢量 
处 理 器 的 时 钟 周期 一 致 ) 。 

4. 某 一 存储 缓冲 有 4 项 ,平均 使 用 2 项 。 

(a) 在 不 知道 方差 的 情况 下 ， 绥 冲 满 或 溢出 的 延迟 可 能 性 有 多 大 ? 

(b) 假设 已 知 方差 o? =0.5， 产 生 延 迟 的 可 能 性 是 多 少 ? 

5. (a) 假设 某 个 处 理 器 具有 如 下 条 件 转移 行为 : 猜 对 目标 的 时 间 开 销 为 3 
个 周期 ， 如 果 猜 错 目 标 而 代码 实际 上 不 跳 转 则 有 6 个 周期 的 惩罚 ; 类 似 的 ， 正 确 
猜测 不 跳 转 没有 延迟 惩罚 ， 但 错误 的 猜测 不 跳 转 而 实际 上 代码 跳 转 则 有 6 个 周期 
的 惩罚 。 程 序 跳 转 的 概率 超过 多 少时 应 该 猜测 目标 路 径 ? 

(b) 对 于 一 个 访问 缓存 需要 3 个 周期 ， 物 理 字 长 为 8 字 节 的 L/S 机 器 ， 指 
令 缓 冲 需要 多 少 字 (8 字 节 ) 才能 避免 溢出 。 

6. (a) 当 分 文 指 令 译 码 时 访问 一 个 分 文 表 缓 冲 (Branch Table Buffer, 
BTB) ， 这 样 在 分 支 译 码 周期 结束 时 目标 地 址 〈 仅 为 目标 地 址 ) 可 用 。 





对 于 一 个 带 有 BTB 的 R/M 机 器 ， 时 序 模板 如 上 所 示 (每 周期 一 个 译 码 )， 
非 条 件 分 支 和 条 件 分 支 的 惩罚 分 别 是 多 少 ? 假设 所 有 非 条 件 分 支 和 50% 的 条 件 
分 支 在 BTB 中 命中 ，80% 的 命中 的 条 件 指令 实际 上 跳 转 了 ， 而 20% 未 命中 的 条 
件 指 令 实际 上 跳 转 了 。 

(b) 如 果 目 标 指令 直接 存放 在 BIB 中 ， 非 条 件 分 支 和 条 件 分 支 的 惩罚 分 别 
是 多 少 [假设 条 件 同 (a) ]? 

7. BTB 可 以 和 历史 位 一 同 决定 什么 时 候 将 一 个 目标 放 和 人 BTB 中 。 这 样 小 容 
量 的 BTB 可 以 变 得 更 高 效 。BTB 大 小 低 于 多 少时 ，2 位 分 支 历 史 方式 更 高 效 
(在 科学 计算 环境 下 )? 

8. 寻找 一 种 商业 VLIW 机 器 和 它 的 指令 布局 ， 试 着 描述 它 ， 并 写 出 计算 
4? +7xB+AxC-D/(AxB) 的 指令 序列 ， 先 将 值 加 载 到 寄存 器 中 再 计算 。 
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9. 重 命名 寄存 器 可 以 代替 指令 集 指定 的 寄存 器 组 。 试 着 比较 以 下 两 种 情况 : 
没有 寄存 器 组 〈 在 一 个 单一 累加 器 的 指令 集中 ) ; 没有 重 命 名 寄存 器 ， 但 在 指令 
集中 有 一 个 大 的 寄存 器 组 。 

10. 寻找 一 个 运用 矢量 处 理 咒 的 SoC 配置 ， 从 以 下 儿 方 面 描述 矢量 处 理 带 的 
体系 结构 : 寄存 器 组 数量 、 每 组 的 寄存 器 数 、 指 令 格式 等 。 

11. 寻找 一 个 运用 超 长 指令 字 处 理 器 的 SoC 配置 ， 从 以 下 几 方 面 描述 处 理 带 
的 体系 结构 : 寄存 器 组 、 重 命名 寄存 器 个 数 、 控 制 流 和 数据 流 、 指 令 格式 等 。 


第 4 Be 
4.1 引言 





片上 系统 和 基于 主板 系统 的 存储 设计 


存储 设计 是 系统 设计 的 关键 环节 。 存 储 系统 通常 是 系统 中 消耗 (面积 或 世 





片 数量 ) 最 大 的 部 分 ， 而且 在 很 大 程度 上 决定 着 3 





统 的 性 能 。 除 了 处 理 器 和 互 





联结 构 ， 应 用 程序 能 运行 的 最 大 速度 受到 存储 系统 的 限制 ， 因 为 运行 时 所 需要 的 
旨 令 和 操作 数 都 是 由 存储 器 提供 的 。 

存储 设计 需要 考虑 很 多 方面 的 内 容 。 首 要 方面 就 是 应 用 程序 的 需求 : 操作 系 
统 、 大 小 、 应 用 程序 的 多 样 性 等 。 这 在 很 大 程度 上 决定 了 存储 器 的 大 小 和 存储 寻 
址 方式 : 实地 址 或 虚 地 址 。 图 4. 1 所 示 存 储 设计 框图 。 表 4. 1 给 出 了 不 同 存储 技 





术 所 需 空间 对 比 。 


需求 分 析 


一 些 可 能 输出 结果 











选择 操作 系统 ， 并 且 


设置 所 需 的 应 用 程序 
存储 空间 大 小 











限制 功能 ， 适 合 
小 于 100MB 


存储 含义 


片上 SRAM 或 EDRAM 





实 内 存 ， 无 虚 表 ， 仅 
一 级 缓存 


设计 方法 





选择 、 设 置 程序 存 
储 空 间 和 指令 缓存 
的 大 小 ; 选择 SRAM 


或 是 :DRAM 作 为 主 
数据 存储 空间 ， 设 置 
数据 缓存 大 小 





图 4.1 





限制 功能 需要 
大 于 100MB 
实 或 虚 存 储 ， 部 分 
片 外 存储 ， 可 能 需 
要 二 级 缓存 


设计 片 外 DRAM， 
设置 大 小 ; 考虑 特 
殊 片上 功能 和 程序 
级 缓存 大 小 






















存储 设计 框图 





最 大 功能 ， 大 内 
存 空 间 需 求 
存在 片 外 DRAM 存 
储 的 虚拟 存储 空间 ， 
片 内 二 级 缓存 


选择 并 且 设置 板 上 
DRAM 大 小 ; 选择 





3j 





数据 /指令 一 级 缓存 ， 
优化 二 级 缓存 /一 级 
缓存 
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表 4.1 不 同 存储 技术 所 需 空间 对 比 






































存储 技术 tbe 单位 面积 A 上 的 存储 空间 /KB 
DRAM 0.05 ~0.1 1800 ~ 3600 
SRAM 0.6 300 
ROM/ PROM 0.2 ~0.8 + 225 ~900 
eDRAM 0. 15 1200 
Flash; NAND 0. 02 10000 








首先 看 SoC 外 部 存储 和 内 部 存储 部 分 ， 然 后 分 析 暂 存 器 和 缓存 来 理解 它们 是 

如 何 工作 和 进行 设计 的 。 之 后 ， 我 们 将 考虑 主 存 问 题 ， 首 先是 片上 存储 器 的 设 

计 ， 然 后 是 传统 动态 RAM (Dynamic RAM, DRAM) 的 设计 。 作 为 大 型 存储 系统 

设计 的 一 部 分 ， 还 将 会 分 析 不 同 种 类 的 存储 模块 、 交 叉 存 储 技术 和 存储 系统 的 性 

能 等 方面 的 内 容 。 图 4.2 给 出 了 一 个 SoC 存储 设计 模型 。 TEAST 互联 网 路 、 处 
理 器 和 LO 设 定 为 理想 状态 ， 这 样 就 能 够 对 存储 器 设计 进行 权衡 考虑 。 


二 级 缓存 /| 数据 结构 
四 
理想 化 互联 方式 
(固定 访问 时 间 及 足够 的 带宽 ) 
















7 个 选择 的 处 理 器 ， 拥 有 理想 化 的 执行 时 间 
图 4.2 一 个 SoC 存储 设计 模型 


表 4.2 给 出 了 一 些 闪存 (NAND) 的 封装 形式 ,它们 是 能 集成 到 SoC 设计 的 
一 些 存储 器 。 
表 4.2 一 些 闪 存 (NAND) 封装 形式 (2 ~ 128GB) 



































> Ii GEE — 速度 ( 读 / 写 

形 A 7 i a see = /8 ae 典型 应 各 四 
标准 闪存 (Compact Flash, CF) 36 x43 x3.3 11.4 22/18 数码 相机 

安全 数位 ( Secure Digital, SD) 32 x24 x2.1 2.0 22/18 数码 / 摄 相机 
Mini SD 20 x20 x1.2 1.0 22/18 手机 /GPS 
Micro SD 15 x11 x0.7 0.5 22/15 迷你 手机 
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il 1 

需求 的 设计 目标 对 能 达到 的 性 能 值 起 到 很 大 的 作用 。 考 虑 图 4. 1 所 示 两 种 不 
同 的 设计 路 线 : 最 大 功能 设计 方法 和 限制 功能 设计 方法 。 无 论 是 从 片 内 还 是 片 外 
存储 需 的 设计 上 看 ， 它 们 之 间 的 区 别 是 很 细微 的 。 然 而 ， 最 终 的 性 能 可 能 大 相 径 
庭 ， 因 为 片 外 存储 器 需要 很 长 的 访问 时 间 。 如 果 能 够 在 片上 存储 器 中 获取 内 存 内 
容 (程序 数据 和 代码 )， 那 么 访 存 时 间 仅 为 3 ~ 10 个 时 钟 周期 。 

片 外 访问 时 间 是 一 个 更 大 的 数量 级 (30 ~ 100 个 周期 )。 为 了 达到 相同 的 性 能 ， 
片 外 存储 设计 需要 增加 大 量 的 缓存 ， 通 常会 将 这 些 缓存 划分 为 不 同 的 层级 来 满足 访 
问 时 间 的 要 求 。 实 际 上 ， 缓 存 的 1 MAREA AEA DRAM (embedded DRAM, 
eDRAM) 1 位 大 50 倍 ( 详 见 本 书 第 2 章 和 4. 13 节 )。 所 以 片 外 存储 所 需 的 更 大 组 
存 的 开销 可 能 达到 10 x 50 BK 500 个 DRAM 位 。 如 果 一 个 存储 系统 使 用 了 10K 个 动 
态 电阻 来 组 成 缓冲 用 来 文 持 片 上 存储 ， 那 么 芯片 需要 LOOK 个 动态 电阻 来 支持 片 
外 存储 。 其 中 90K 个 动态 电阻 的 面积 差别 可 以 用 来 实现 450K 个 eDRAM 位 。 





4.2 概况 


4.2.1 SoC 外 部 存储 : AG 


闪存 技术 发 展 非常 迅速 ， 每 隔 一 段 时 间 就 会 有 新 的 技术 创新 发 布 。 闪 存 不 仅 
是 存储 器 的 替代 者 ， 也 被 广泛 认为 是 磁盘 的 替代 者 。 然 而 ， 在 一 些 环境 和 配置 
下 ， 它 能 够 同时 达到 内 存 和 非 易 失 性 备份 存储 介质 的 作用 。 

闪存 由 一 组 泽 栅 晶体 管 组 成 ， 这 些 晶体 管 类 似 MOS 晶体 管 ， 但 是 拥有 独特 
的 双 门 结构 : 控制 门 电路 和 绝缘 浮 栅 门 电路 。 电 荷 存 储 在 浮 顶端 ， 提 供 非 易 失 性 
存储 功能 。 尽 管 数据 能 够 被 重 写 ， 但 是 目前 的 技术 受 限 于 可 靠 的 重 写 次 数 ， 这 个 
次 数 通 常 低 于 百 万 级 。 因 为 降级 使 用 (degradation with use) 会 成 为 一 个 问题 ， 
所 以 需要 频繁 地 进行 错误 检测 和 纠正 。 

对 于 半导体 设备 来 说 ， 尽 管内 存在 位 密度 方面 有 优势 ， 但 是 其 写 周 期 太 长 的 
缺陷 限制 将 其 用 于 存储 那些 需要 频繁 修改 的 数据 ， 如 程序 和 大 型 文件 。 

目前 为 止 ， 有 两 种 闪存 的 类 型 结构 : NOR 和 NAND。NOR 实现 方式 相对 灵活 ， 
但 是 NAND 却 拥 有 更 好 的 位 存储 密度 。 而 NOR/NAND 混合 型 实现 则 可 能 会 将 NOR 
阵列 作为 大 块 NAND 阵列 的 缓冲 器 使 用 。 表 4. 3 给 出 了 两 种 闪存 类 型 的 对 比 。 

表 4.3 两 种 闪存 类 型 的 对 比 


技 术 NOR NAND 

















比特 密度 / (KB/A) 1000 10000 
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( 续 ) 
技 术 NOR NAND 
典型 容量 64MB 16GB (可 以 由 4 块 或 是 更 多 块 组 成 ) 
访问 时 间 20 ~70ns 10hs 
传输 率 / (MB/s) 150 300 
写 时 间 /hs 300 200 
地 址 访问 方式 字 或 块 块 
eae 程序 存储 和 
限制 的 数据 存储 eine 








闪存 拥有 各 种 封装 形式 。 尺 寸 越 大 的 通常 越 古 老 ( 见 表 4.2)。 小 的 闪存 片 
Ay Lek “YER” BI) SoC 芯片 上 成 为 一 个 系统 /存储 器 封装 。 闪 存 片 还 可 以 通过 
HERBIE M—TP AE (64 ~256GB) 存储 器 封装 。 

以 目前 的 技术 来 看 ， 闪 存 通常 用 于 片 外 实现 。 然 而 ， 也 有 一 些 闪 存 变种 设计 
用 于 和 传统 的 Soc 技术 相 兼 容 。 例 如 ，SONOS' ”是 一 种 非 易 失 性 存储 器 ，2Z- 
RAM!) Œ DRAM 的 一 种 替代 品 。 这 两 者 似乎 都 没有 受到 重 写 次 数 的 限制 。Z- 
RAM 在 提供 更 好 的 存储 密度 的 同时 ， 似 乎 通过 其 他 方式 与 DRAM 速度 兼容 了 。 
而 SONOS 在 提供 更 好 的 存储 密度 的 同时 ， 其 访问 时 间 比 eDRAM 短 。 


4.2.2 Soc 内 部 存储 器 : 放置 点 


存储 系统 设计 中 最 重要 也 最 显著 的 因素 就 是 主 存储 器 的 放置 点 : 片 内 (和 
处 理 需 在 同一 块 芯片 上 ) 和 片 外 〈 独 立 忌 片 或 是 在 多 块 芯片 的 某 模块 上 ) 。 就 像 
本 书 第 1 章 指 出 的 情况 一 样 ， 这 个 因素 将 传统 的 工作 站 处 理 器 和 基于 应 用 的 板 卡 
设计 同 SoC 设计 区 别 开 来 。 

存储 系统 的 设计 受到 两 个 基本 因素 的 限制 ， 这 两 个 基本 因素 决定 着 存储 系统 
的 性 能 。 第 一 个 因素 是 访问 时 间 。 访 问 时 间 是 处 理 器 的 访 存 请 求 被 传输 到 存储 系 
统 ， 访 问 数据 单元 ， 然 后 将 数据 返回 给 处 理 顺 的 整个 过 程 时 间 。 访 问 时间 很 大 程 
度 地 受到 物理 设计 因素 的 限制 ， 如 处 理 咒 和 存储 天 的 物理 距离 或 者 是 总 线 延 迟 、 
芯片 延迟 等 一 些 其 他 因素 。 第 二 个 因素 是 访 存 宽度 ， 即 单位 时 间 内 存储 如 对 访问 
请 求 的 反应 能 力 。 带 宽 主 要 是 由 物理 存储 天 系统 的 组 织 方式 一 一 独立 存储 天 阵 列 
的 数量 及 特殊 顺序 访问 模式 的 使 用 一 一 所 决定 的 。 

缓存 系统 必须 弥补 访 存 时 间 和 带宽 的 限制 。 

目标 定位 于 高 性 能 的 工作 站 处 理 需 需要 非常 高 效 的 存储 系统 ， 如 果 把 存储 器 
放置 在 片 外 就 很 难 实现 这 一 点 。 表 4.4 给 出 了 不 同 环境 下 存储 系统 设计 方法 的 
对 比 。 
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表 4.4 不 同 环境 下 存储 系统 设计 方法 的 对 比 












































部 件 工作 站 类 型 PAGS Hr SoC 基于 主板 SoC 
处 理 器 最 快速 度 更 小 ， 可 能 慢 至 1/6 ~1/4 | 更 小 ， 可 能 慢 至 1/6 ~ 1/4 
缓存 二 到 三 级 ， 非 常 大 (4 ~64MB) | 简单 ， 单 级 (256KB) 单 级 ， 多 元 素 
存储 总 线 复杂 ， 慢 引 脚 限制 内 部 ， 宽 ， 高 带宽 混合 
总 线 控制 器 复杂 时 序 和 控制 简单 ， 内 部 混合 
内 存 非常 大 (16GB 以 上 ) 限 制 带宽 限制 大 小 (256MB) 在 板 上 特殊 集成 
内 存 访问 时 间 20 ~30ns 3 ~5ns 混合 

















工作 站 和 基于 主板 的 存储 设计 对 于 设计 者 来 说 是 一 个 很 大 的 挑战 。 此 时 需要 
和 别 关注 缓存 ， 因 为 它 必须 能 够 弥补 主 存储 器 位 置 带 来 的 性 能 损失 。 


4.2.3 ”存储 器 大 小 


WAR AA, AME, UM TT A EE i at BON T ERRA 
计 中 的 主要 问题 。 由 此 看 来 ， 为 什么 不 限制 存储 器 的 大 小 以 期 能 够 合并 到 片上 
WE? 在 虚拟 存储 系统 中 ， 应 用 程序 仍然 可 以 访问 大 容量 的 地 址 空间 。 对 于 工作 
站 来 说 ， 应 用 程序 需要 的 环境 〈 以 操作 系统 作为 代表 ) 有 了 很 大 程度 的 增长 
( 见 图 4.3)。 随 着 环境 的 继续 增长 ， 工 作 集 和 活动 页 也 继续 增长 。 这 样 就 需要 
更 多 的 实际 (物理 ) 内 存 来 承载 足够 多 的 页 来 避免 过 多 的 页 蔡 换 操作 。 过 多 的 页 巷 
换 操作 会 损害 性 能 。 基 于 主板 的 系统 面临 着 稍微 不 同 的 问题 。 在 这 儿 ， 多 媒体 数据 集 
通常 非常 巨大 并 且 需 要 很 大 的 存储 器 带宽 及 多 媒体 处 理 器 的 处 理 能 力 。 然 而 ， 基 于 主 
板 的 系统 有 一 个 优势 ， 只 要 访问 带宽 足够 满足 需求 ， 访 问 时 间 将 不 会 成 为 问题 。 那 么 
































能 够 将 多 少 存储 器 放 到 一 个 世 O 站 RN 

HRW? 该 吉 天 于 技术 工 其 和 1 | 
所 需求 的 性 能 。 表 4.1 也 给 出 。 too 上 

了 不 同 技术 工艺 所 需要 的 面 1000 上 

R, eDRAM 通常 需要 相对 大 Š soo | 

的 存储 阵列 〈 本 章 稍 后 介绍 ) Y o 

因此 ， 例 如 在 一 个 45nm TE Ë 

的 条 件 下 ,预计 能 有 大 约 

49.2kA/cm 或 者 大 约 8MB 的 

eDARM。 高 级 电路 设计 和 技术 © 95 NT 98 ME XP 
能 够 显著 提高 容量 ， 但 是 大 约 Windows 操作 系统 

64MB 将 会 是 一 个 极限 ， 除 非 图 4.3” 几 代 微软 操作 系统 需求 的 磁盘 空间 


能 出 现 一 种 合适 的 闪存 技术 。 (最 新 的 Vista 系统 需要 6GB) 
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4.3 暂 存 器 和 缓存 


相对 小 一 点 的 存储 涡 通 常 比 大 一 点 的 存储 器 访问 速度 更 快 ， 因 此 将 经 常 访 问 
(或 是 期 望 会 被 经 常 使 用 ) 的 指令 集 和 数据 存储 在 一 块 小 的 更 容易 访问 (一 个 周 
期 的 访问 时 间 ) 的 内 存 中 会 非常 有 用 。 如 果 内 存 被 程序 员 直 接管 理 ， 那 么 这 块 
内 存 被 称 为 暂 存 器 ;如 果 被 硬件 管理 ， 那 么 被 称 为 缓存 。 

内 存 管理 是 一 个 烦琐 的 过 程 ， 大 多 数 通 用 计算 机 仅 使 用 缓存 存储 咒 。 然 而 ， 
SoC 提供 了 可 以 使 用 暂 存 器 的 可 能 。 假 设 使 用 的 是 众所周知 的 应 用 程序 ， 程 序 员 
就 能 够 预先 明确 地 控制 数据 传输 。 除 了 缓存 控制 硬件 能 够 提供 出 额外 的 区 域 来 增 
加 暂 存 器 的 大 小 ， 这 样 也 可 以 提高 性 能 。 

SoC 中 实现 的 暂 存 器 通常 用 于 存储 数据 而 不 是 指令 ， 因 为 简单 缓存 已 能 处 理 
好 指令 ,效率 已 经 很 高 。 更 进一步 地 说 ， 通 过 复杂 的 编程 来 直接 控制 指令 传输 是 
不 值得 的 。 

本 章 剩 下 的 部 分 介绍 了 缓存 存储 器 的 理论 和 设计 经 验 。 由 于 介绍 绥 存 的 内 容 
非常 多 ， 所 以 人 们 很 容易 遗忘 更 简单 、 更 早 的 暂 存 带 方 法 ,但 是 在 SoC 系统 上 ， 
有 时 候 这 种 简单 的 方法 取得 的 效果 却 是 最 好 的 。 

缓存 的 工作 原理 是 基于 程序 执行 的 局 部 性 原理 。 以 下 是 相关 的 三 个 原理 ; 

1. 空间 局 部 性 。 对 于 一 块 特定 的 内 存 区 域 ， 在 程序 执行 的 所 有 时 间 内 ， 这 
块 区 域 或 者 相 邻 的 区 域 将 会 有 更 高 的 可 能 性 被 访问 。 

2. 时 间 局 部 性 。 对 于 对 个 区 域 的 一 系列 访问 ， 在 一 段 时 间 内 对 于 相同 区 
域 将 会 有 更 高 的 可 能 性 被 访问 。 

3. 序列 性 。 对 于 对 指定 区 域 ; 的 访问 ， 对 于 接 下 来 的 几 个 访问 ， 很 有 可 能 
访问 的 区 域 是 ;+1 区 域 。 这 是 空间 局 部 性 的 特例 。 

缓存 设计 者 们 必须 一 方面 满足 处 理 需 访问 的 各 种 需求 ， 另 一 方面 也 要 满足 内 
存 的 各 种 要 求 。 有 效 的 缓存 设计 方法 会 在 各 种 消耗 之 间 取 平衡 点 。 


4.4 基础 概念 


处 理 器 访问 的 内 容 存 于 缓存 中 时 称 为 缓存 命中 。 访 问 的 内 容 不 存 于 缓存 中 时 
称 为 缓存 失效 。 在 缓存 失效 的 情况 下 ， 缓 存 会 从 内 存 中 取出 失效 的 内 容 并 放 到 组 
存 中 。 通 常情 况 下 ， 组 存在 内 存 中 取出 的 相关 区 域 的 内 容 称 为 缓存 “ 行 ”。 行 中 
的 内 容 包括 一 个 或 多 个 物理 地 址 中 的 字 ， 这 些 内 容 是 从 更 高 一 级 的 缓存 或 是 主 存 
中 取出 。 物 理 字 是 访问 内 存 的 基本 单位 。 

处 理 器 -缓存 接口 定义 了 一 系列 的 参数 。 其 中 直接 影响 处 理 需 性 能 〈 见 图 4.4) 
的 参数 有 以 下 几 种。 
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TLB 失 效率 “上 一 一 | 
及 惩罚 延迟 缓存 总 线 
缓存 大 小 ae 
BRE [物理 字 大 小 内 存 
至 处 理 器 
缓存 失效 
访问 时 间 








图 4.4 影响 处 理 器 性 能 因素 





1. 物理 字 一 一 处 理 带 和 缓存 的 基本 传输 单位 。 

典型 的 物理 字 大 小 : 

2 ~4 字 节 一 一 最 小 值 ， 在 小 核 类 型 处 理 器 中 使 用 。 

8 字 节 及 更 大 一 一 多 发 射 指令 处 理 融 〈 超 标量 ) 。 

2. 块 大 小 〈 也 称 行 ) 一 一 通常 是 缓存 和 内 存 的 传输 单位 。 它 包括 个 从 内 
存 经 由 总 线 传输 过 来 的 物理 字 。 

3. 缓存 命中 访问 时 间 一 一 这 个 是 缓存 大 小 和 组 织 形式 固有 的 属性 。 

4. 绥 存 失效 访问 时 间 一 一 这 个 是 内 存 和 总 线 的 固有 属性 。 

5. 虚拟 地 址 到 物理 地 址 的 转换 时 间 (不 在 TLB 的 转换 时 间 ) 一 一 地 址 转换 
设备 的 固有 属性 。 

6. 每 个 周期 处 理 器 的 访问 请 求 数量 。 

缓存 性 能 是 由 失效 率 或 是 访问 缓存 没有 命中 的 可 能 性 计算 的 。 失 效 时 间 为 失 
效 次 数 乘 以 失效 后 的 延 时 时 间 。 在 简单 的 处 理 器 中 ， 当 出 现 缓存 失效 后 ， 处 理 器 
会 暂停 执行 。 
缓存 是 处 理 器 的 一 部 分 吗 ? 

对 于 许多 IP 设计 来 说 ， 一 级 缓存 通常 是 集成 到 处 理 咒 内 部 的 ， 那 么 ， 为 什 
么 需要 弄 清 缓存 的 细节 呢 ? 需要 弄 清 缓存 的 哪些 细节 呢 ? 最 显而易见 的 回答 是 
SoC 是 由 多 处 理 器 组 成 ， 多 处 理 需 之 间 需 要 共享 内 存 ， 通 常 的 共享 方式 是 用 一 个 
二 级 缓存 。 更 好 的 回答 是 ， 一 级 缓存 的 细节 有 可 能 成 为 获取 存储 一 致 性 和 合适 的 
程序 操作 的 基础 内 容 。 所 以 ,缓存 是 SoC 中 一 个 单独 的 重要 的 部 分 。 要 设计 的 是 
SoC 存储 层次 ,不 是 孤立 的 缓存 结构 。 
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45 缓存 组 织 形式 


缓存 通常 使 用 按 需 取 或 者 预 取 策略 。 前 者 的 组 织 结构 在 简单 的 处 理 器 上 使 用 
广泛 。 一 个 命令 请 求 访 问 策略 的 缓存 只 有 当 失 效 发 生 的 时 候 才 会 在 缓存 中 形成 存 
储 局 部 性 。 预 取 策 略 试图 通过 局 部 性 原理 猜测 下 一 个 请 求 来 预 取 相应 的 值 。 它 通 
常 在 指令 缓存 中 使 用 。 

有 三 种 基本 的 缓存 组 织 形 式 : 全 相 联 (Fully Associative, FA) 映射 ( 见 
图 4.5) 、 直 接 映 射 〈( 见 图 4.6)， 以 及 组 相 联 ( 见 图 4.7， 实际 上 是 前 两 者 的 混 
合 方式 ) 。 在 一 个 FA 缓存 中 ， 当 发 出 一 个 请 求 时 ， 地 址 会 和 目录 中 所 有 的 地 址 
条 目 进行 对 比 (COMP) 。 如 果 找 到 请 求 的 地 址 (目录 命中 ) ， 缓 存 相 应 地 址 的 内 
容 会 被 取出 ; 否则 ， 缓 存 失 效 。 

在 直接 映射 缓存 中 ， 行 地 址 的 低位 比特 与 目录 比较 ( 即 图 4.8 所 示 的 索引 
比特 ) 。 由 于 多 个 行 地 址 会 映射 到 相同 的 缓存 目录 中 ， 所 以 需要 行 地 址 的 高 位 
(标签 位 ) 与 目录 地 址 进行 对 比 来 验证 是 否 命中 。 如 果 比 较 结果 无 效 ， 结 果 为 未 
命中 。 直 接 映射 缓存 的 优势 是 在 访问 自身 缓存 的 同时 能 够 同时 访问 目录 表 。 
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标签 索引 偏 移 量 FH 


























一 一 字 节 地 址 > 
一 一 字 地 址 
<— 行 地 址 一 ~ 


图 4.8 使 用 时 缓存 地 址 的 分 割 








处 理 器 发 送 给 缓存 的 地 址 被 分 为 多 个 部 分 ， 每 一 部 分 在 存 取 数据 的 时 候 具 有 
不 同 的 作用 。 如 图 4.8 所 示 的 地 址 分 割 一 样 ， 对 比 操作 (和 目录 中 行 地 址 的 高 
位 ) 中 高 位 区 域 称 为 标签 (tag) 。 

下 一 个 部 分 称 为 索引 (〈index) ， 用 来 在 缓存 目录 中 和 缓存 行 地 址 进行 对 比 。 
标签 加 上 索引 就 是 内 存 中 的 行 地 址 。 

下 一 个 部 分 是 指定 〈offset) ， 它 是 在 一 行 中 确定 物理 字 的 地 址 。 

最 后 一 部 分 ， 是 低位 区 域 ， 能 够 确定 一 个 字 中 的 字 节 。 这 些 位 在 缓存 中 通常 
不 使 用 ， 因 为 缓存 访问 通常 都 是 字 大 小 的 。 当 写 一 个 字 的 某 一 部 分 的 时 候 会 引发 
异常 。 

组 相 联 缓存 和 直接 映射 方式 类 似 。 行 地 址 的 位 用 来 确定 缓存 目录 地 址 。 然 
而 ， 现 在 有 多 种 选择 ，2 路 、4 路 或 者 更 多 的 行 地 址 相 联 方式 。 每 个 地 址 对 应 于 
一 个 子 缓存 空间 。 所 有 的 子 缓存 空间 组 成 整个 缓存 阵列 。 这 些 子 阵列 和 目录 可 以 
被 同时 访问 。 如 果 缓 存 目录 中 的 任何 一 个 项 与 访问 地 址 匹配 ， 证 明 访问 命中 ， 组 
存 子 阵 列 的 值 被 返回 给 处 理 器 。 虽 然 匹配 的 过 程 增加 了 缓存 的 访问 时 间 ， 但 是 组 
相 联 缓存 的 访问 时 间 优 于 全 相 联 映射 缓存 。 但 是 直接 相 联 缓存 映射 方式 提供 了 最 
短 的 处 理 器 缓存 访问 时 间 ， 无 论 缓存 有 多 大 。 


4.6 缓存 数据 


缓存 大 小 在 很 大 程度 上 决定 了 缓存 的 性 能 (失效 率 ) 。 绥 存 越 大 失效 率 就 会 
越 低 。 几 乎 所 有 的 缓存 失效 率 数 据 都 是 经 验 所 得 ， 并 且 有 特定 的 限制 。 绥 存 数据 
具有 较 强 的 程序 依赖 性 。 同 样 的 ， 这 些 数 据 也 常常 基于 老 的 机 器 ， 在 这 些 机 器 
上 ， 内 存 和 程序 大 小 都 是 固定 的 并 且 很 小 。 这 些 数 据说 明了 尺寸 相对 较 小 的 缓存 
具有 较 低 的 失效 率 。 在 这 种 情况 下 ， 出 现 一 种 倾向 ， 在 特定 大 小 的 缓存 下 ， 测 得 
的 失效 率 随 着 时 间 推 移 有 所 增加 。 这 些 仅 是 在 程序 大 小 逐渐 增 大 的 情况 下 测 得 的 
结果 。 前 段 时 间 ，Smith!2 发 明了 一 系列 的 设计 目标 失效 率 (Design Target Miss 
Rate，DTMR) ， 它 能 够 估算 出 设计 者 可 以 从 统一 缓存 (不 区 分 指令 和 数据 ) 预 
计 得 到 什么 样 的 结果 ， 如 图 4.9 所 示 。 这 些 数据 是 基于 缓存 功能 和 行 大 小 得 出 的 
典型 缓存 失效 率 。 
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图 4.9 每 次 访 存 的 设计 失效 率 〈 全 相 联 ， 命 令 取 值 ， 分 配 写 取 值 ，LRU 再 复制 式 策略 ) OP ”1 





对 于 缓存 容量 大 于 1MB ， 一 个 常用 的 规律 就 是 缓存 的 大 小 增加 一 倍 失效 率 
就 降低 一 半 。 这 个 常用 规律 对 于 基于 事务 的 程序 来 说 没 那 么 有 效 。 


4.7 BRB 


当 发 生 写 操作 时 ， 主 存 是 怎样 更 新 的 呢 ? 一 种 方法 是 同时 写 缓 存 和 主 存 
( 直 写 3) ， 另 一 种 方法 是 仅 写 缓存 (再 复制 S$， 有 时候 也 叫 写 回 ) ， 当 这 一 缓存 组 
存 块 发 生 替 换 的 时 候 写 回 到 主 存 中 。 这 两 种 策略 是 基本 缓存 写 策略 (ILE 4.10). 

每 一 次 CPU 存储 操作 ， 采 用 直 写 策略 的 缓存 〈 见 图 4. 10a) 的 内 容 既 存储 
在 缓存 中 也 存储 在 主 存 中 。 

优点 : 这 让 运行 的 程序 在 内 存 中 呈现 的 是 一 个 一 致 的 (最 新 的 ) 场景 。 

缺点 : 内 存 带宽 有 可 能 很 高 一 一 主要 是 写 数据 传输 。 

在 写 回 式 缓存 ( 见 图 4.10b) 中 ， 当 缓存 行 被 替换 的 时 候 ， 新 的 数据 才 被 写 
回 到 内 存 中 。 这 要 求 持续 记录 缓存 行 的 修改 (或 是 “ 脏 ”") 位 ， 但 这 样 做 的 优势 
是 减少 了 内 存 写 操作 的 数据 流 : 

L 当 缓存 任意 一 行 发 生 写 操作 ， 相 应 的 修改 位 会 被 置 位 。 








© HS: Write Through, WT, 
© 再 复制 : Copy Back, CB, E]; Write Back, 
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a) 直 写 式 
缓存 内 存 
如 果 不 在 缓存 ,更 新 内 存 
写 
b) 写 回 式 (再 复制 ) 
a 内 存 
写 替换 行 -| 
写 
图 4.10 写 策略 


a) 直 写 式 缓存 〈 写 不 分 配 ) b) 写 回 式 缓存 〈 写 分 配 ) 


2. 从 各 种 各 样 的 记录 (Traces)' ”| 来 看 , 平均 一 行 的 将 换 率 为 47% (20% 
~80% ) 。 

3. 经 验 法 则 : 被 替换 的 数据 行 中 有 半数 是 修改 的 。 因 而 ， 对 于 数据 缓存 ， 假 
WA 50% 是 修改 的 对 于 统一 缓存 ， 假 设 有 30% 是 修改 的 。 

大 多 数 大 型 缓存 使 用 的 是 写 回 策略 ; 直 写 式 缓存 仅 局 限于 小 型 缓存 或 是 特殊 
用 途 缓存 ， 这 些 缓存 能 够 提供 及 时 的 内 存 更 新 映像 。 最 后 ， 当 一 次 写 操作 (存储 
操作 ) 在 缓存 中 失效 该 如 何 处 理 呢 ? 可 以 从 内 存 中 获取 这 一 行 的 内 容 ( 写 分 配 9)， 
或 者 直接 写 回 到 内 存 中 ( 非 写 分 配 8)。 多 数 直 写 式 缓存 采取 不 分 配 策略 (Write 
Through No Write Allocate，WTNWA) ， 而 大 多 数 写 回 式 Cache 采取 分 配 策略 (Copy 
Back Write Allocate, CBWA) 。 


























4.8 失效 替换 策略 


缓存 失效 后 会 发 生 什 么 ? 如果 访问 地 址 没有 在 目录 中 被 找到 ， 那 么 一 次 缓存 
失效 即 发 生 。 发 生 失效 情况 后 ， 需 要 迅速 采取 两 步 操作 : (1) 失效 的 行 需要 从 
内 存 中 获取 出 来 ; (2) 缓存 中 的 某 一 行 需要 被 当前 所 访问 行 〈 失 效 行 ) 的 内 容 
替换 出 去 。 





© 写 分 配 : Write Allocate, WA, 
© 非 写 分 配 : No Write Allocate, NWA, 
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4.8.1 读 取 一 行 

在 直 写 式 缓存 中 ， 读 取 一 行 的 操作 包括 访问 失效 行 的 内 容 并 且 将 内 容 替 换 到 
缓存 行 中 。 

对 于 写 回 式 策略 ,需要 首先 决定 要 替换 掉 的 行 是 否 是 “ 脏 ” 行 (已 经 被 写 
过 ) 。 如 果 行 未 被 写 过 ， 处 理 方 式 和 直 写 式 的 一 样 。 然 而 ， 如 果 行 是 脏 的 ， 必 须 
将 脏 行 写 回 到 内 存 中 。 

在 访问 一 行 时 ， 最 快 的 访问 方式 是 非 阻塞 缓存 或 者 预 取 缓存 。 这 种 方法 在 直 
写 式 和 写 回 式 缓存 中 都 可 适用 。 在 此 ， 组 存 拥 有 额外 的 控制 便 件 ， 可 以 允许 缓存 
失效 被 处 理 (或 旁 路 掉 ) ， 同 时 处 理 器 可 以 继续 执行 。 这 种 策略 仅 适 用 于 当 访 问 的 
数据 不 是 处 理 器 目前 所 需要 的 情况 下 。 处 理 需 使 用 非 阻 塞 式 缓存 加 上 编译 需 提 供 的 
预 取 行 机 制 ， 可 以 取得 非常 好 的 效果 。 非 阻塞 式 缓存 的 有 效 性 依赖 以 下 两 方面 : 

1. 处 理 器 继续 执行 时 ， 可 以 旁 路 掉 的 失效 缓存 的 数量 ; 

2. 预 取 的 有 效 性 和 足够 的 缓冲 区 来 保存 预 取 的 信息 ; 期 望 使 用 之 前 预 取 的 
时 间 越 长 ， 失 效 延 迟 就 会 越 小 ， 但 是 这 也 意味 着 缓冲 区 或 是 寄存 器 会 被 占用 ， 因 
此 当前 不 能 被 使 用 。 

4.8.2 行 替 换 

当 绥 存 满 了 的 时 候 ， 通 过 替换 策略 选择 一 行 用 来 替换 把。 有 三 种 替换 策略 被 
广泛 使 用 : 

1. 最 近 最 少 使 用 (Least Recently Use，LRU)， 即 最 近 一 段 时 间 最 少 被 访问 
的 〈 读 或 者 写 ) 会 被 替换 掉 。 

2. 先 人 先 出 (First In-First Out，FIFO) ， 即 在 缓存 中 最 久 的 会 被 替换 掉 。 

3. 随机 替换 (Random Replacement，RAND)， 即 随机 选择 要 替换 的 行 。 

因为 LRU 策略 符合 时 间 局 部 性 的 概念 ， 所 以 大 多 数 都 会 选择 这 个 策略 。 同 
时 这 种 方法 的 实现 也 是 最 复杂 的 。 每 一 行 都 会 有 一 个 计数 器 ， 读 或 者 写 操作 的 时 
候 就 会 更 新 。 由 于 这 些 计数 器 可 能 会 很 大 ， 所 以 常 通过 使 用 较 小 的 计数 器 来 近似 
真实 的 LRU 策略 。 

虽然 LRU 的 效果 比 FIFO 或 者 RAND 要 好 一 点 ， 但 是 使 用 简单 的 RAND 或 是 
FIFO 相对 于 LRU 来 说 仅 增 加 了 10% HRR, 

4.8.3 缓存 环境 : 系统 、 事 务 和 多 道 程序 的 影响 

许多 可 用 的 缓存 数据 都 是 基于 研究 用 户 程序 的 记录 (trace) 得 来 的 。 真 正 
的 应 用 程序 运行 在 系统 的 上 下 文 〈context) 。 基 于 用 户 程序 运行 的 经 验 可 知 ， 操 
作 系 统 的 失效 率 会 有 轻微 的 增加 (20% EA). 

多 道 程 序 环境 对 缓存 提出 了 特殊 的 要 求 。 在 这 种 环境 下 ， 缓 存 失 效率 有 可 能 
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不 会 随 着 缓存 大 小 的 增加 而 受到 影响 。 环 境 有 以 下 两 种 ; 

1. 多 道 程序 环境 。 操 作 系统 和 一 些 程序 会 常 驻 内 存 。 系 统 会 控制 程序 在 执 
行 完 成 @ 条 指令 之 后 跳 转 执行 其 他 的 程序 ， 如 此 继续 ， 直 到 最 后 返回 到 第 一 个 
程序 。 这 种 环境 会 形成 所 谓 的 “ 热 缓存 ”的 结果 。 当 一 个 进程 返回 后 继续 执行 ， 
它 会 发 现 一 些 (不 是 全 部 ) 自己 最 近 使 用 的 缓存 行 存 于 缓存 中 ， 这 样 增 加 了 预 
计 的 缓存 失效 率 (图 4.11 所 示 的 结果 ) 。 

多 程序 级 数 为 2， 行 大 小 为 16 字 节 































































































= 平均 访问 量 
= (存储 器 参量 ) 
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单 用 户 设 定 
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缓存 大 小 /B 
图 4.11 预 热 缓存 (多 道 程序 环境 中 执行 0 条 指令 后 任务 切换 时 缓存 的 失效 率 ) 


2. 事务 处 理 环 境 。 当 操作 系统 和 一 定数 量 的 程序 常 驻 内 存 时 ， 一些 短 的 应 
用 程序 (事务 ) 运行 至 结束 。 每 个 应 用 程序 包括 0 条 指令 。 这 种 环境 有 时 候 被 
称 为 “ 冷 缓 存 ”。( 见 图 4. 12), 
行 大 小 16 字 节 ，4 组 相 联 
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缓存 大 小 /B 
图 4. 12 冷 缓 存 (事务 处 理 环境 下 执行 0 条 指令 后 任务 切换 时 缓存 失效 率 ) 
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以 上 描述 的 这 两 种 环境 都 有 一 个 明显 的 特征 ， 在 加 载 完 工作 集 之 前 ， 控 制 权 
会 从 一 个 程序 传递 给 其 他 程序 。 这 样 会 大 大 增加 缓存 的 失效 率 。 


4.9 其 他 类 型 的 缓存 


目前 为 止 ， 仅 考虑 了 简单 的 集成 缓存 〈 也 被 称 为 “统一 ”缓存 ) ， 既 包括 数 
据 缓 存 也 包括 指令 缓存 。 接 下 来 将 探讨 不 同 种 类 的 其 他 缓存 。 表 4. 5 给 出 了 缓存 
的 基本 类 型 ， 但 很 难 将 所 有 的 缓存 描述 详尽 ， 其 中 包括 多 种 用 于 特殊 其 至 是 普通 
应 用 的 缓存 设计 。 














表 4.5 缓存 的 基本 类 型 





































































































类 型 常用 位 置 
集成 (或 统一 ) oo 适合 所 有 访问 类 型 (指令 和 数据 ) 。 常 用 于 二 级 或 更 高 级 
分 离 缓存 ( 指令 和 数据 ) 提供 更 多 的 访问 带宽 ， 失 效率 也 会 上 升 。 常 用 于 第 一 级 处 理 器 缓存 
BAI Bete 提高 了 片上 缓存 面积 有 效 性 〈 给 定 区 域 的 失效 率 ) 
p SR; SEG AIRE, MERD- RERA 
多 级 缓存 Po e ; 级 通常 比 第 一 级 大 很 多 ， 用 来 减 级 缓存 失效 
写 集合 缓存 特殊 化 的 类 型 ， 减 少 写 拥塞 ， 通 常 使 用 WT 片上 一 级 缓存 








目前 可 用 的 微 处 理 器 中 ， 大 多 数 使 用 分 离 的 指令 缓存 〈I-Cache) 和 数据 组 
存 (D-Cache) ， 下 面 会 提 到 。 


4.10 分 离 的 指令 缓存 和 数据 缓存 及 代码 密度 的 影响 


多 缓存 结构 可 以 集成 到 一 个 处 理 器 设计 中 , 每 一 个 缓存 服务 一 个 指定 的 处 理 
器 。 多 年 以 来 , 针对 于 系统 代码 和 用 户 代 码 的 特殊 缓存 ,甚至 特殊 的 输入 /输出 
(IO) 绥 存 都 被 研究 过 。 最 流行 的 缓存 划分 配置 方式 是 将 指令 和 数据 缓存 分 开设 计 。 

分 离 的 指令 和 数据 缓存 可 以 带 来 很 大 的 缓存 带宽 增长 ， 并 且 使 得 整体 缓存 的 
访问 能 力 提高 了 一 倍 。 但 是 ， 指 令 缓存 和 数据 缓存 会 带 来 一 些 消 耗 ， 相同 大 小 的 
统一 缓存 的 失效 率 会 比 数据 缓存 和 指令 缓存 的 失效 率 低 一 些 。 在 统一 缓存 中 ， 指 
令 和 数据 工作 集 单 元 的 比例 随 着 程序 的 执行 会 不 断 改变 ， 同 时 也 会 受到 替换 策略 
的 影响 。 

分 离 的 缓存 拥有 实现 上 的 优势 。 这 些 缓存 不 需要 平均 分 配 ， 因 为 73% : 25% 
的 分 配 比 例 或 是 其 他 比例 被 证 明 会 更 为 有 效 。 同 样 ， 指 令 缓存 因为 不 需要 考虑 存 
储 操作 ， 所 以 在 实现 上 会 相对 简单 。 
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4.11 多 级 缓存 


4.11.1 缓存 阵列 大 小 的 限制 


缓存 由 SRAM 存储 阵列 单元 组 成 。 随 着 阵列 大 小 的 增加 ， 需 要 访问 到 最 远 
单元 的 连 线 也 跟着 变 长 。 这 会 最 终 有 影响 绥 存 的 访问 延迟 。 访 问 延 迟 计 算 公 式 由 组 
存 大 小 、 组 织 形式 及 人 处理 技术 组 成 (特征 尺寸 有 )。 McFarland! | 给 出 了 延迟 的 建 
模 并 且 找 到 了 近似 计算 公式 如 下 : 








( \ 
Access time = (0. 35 +3. 8f + (0. 006 +0. 025f) C) x J +0.3 (1 +) 


式 中 , f 的 单位 为 um; C 为 缓存 阵列 容量 ， 单 位 为 KB; 4 为 相 联 度 (直接 相 联 
为 1); Access Time 的 单位 为 ns。 
公式 如 图 4.13 所 示 (4 = 6 
1)。 如 果 限 制 一 级 缓存 的 访问 
时 间 低 于 Ins, WAKA TRE “| 
将 缓存 阵列 的 大 小 限制 在 
32KB。 因 为 可 能 交叉 使 用 一 
些 不 同 的 阵列 ， 交 叉 结构 也 有 
一 定 的 开销 。 所 以 通常 情况 
下 , 一 级 缓存 低 于 64KB; 二 
级 缓存 通常 低 于 512KB (有 可 1 上 
能 交叉 形式 使 用 更 小 的 阵列 ) ; 2 4 8 16 9 a 18 986 519 
三 级 缓存 使 用 256KB 多 种 阵列 容量 /KB 
或 者 里 多 来 形成 大 的 缓存 通 图 4.13 缓存 访问 时 间 ( 单 阵列 为 例 ) 
常会 受到 尽 片 大 小 限制 。 与 缓存 阵列 容量 函数 


4.11.2 评估 多 级 缓存 


在 多 级 缓存 的 情况 下 ， 可 以 使 用 一 级 缓存 数据 来 评 佑 这 两 级 缓存 性 能 。 一 个 
两 级 的 缓存 系统 ， 如 果 高 层级 的 缓存 〈 一 级 ) 所 有 的 内 容 都 包含 在 低层 级 的 组 
存 ( 二 级 ) 中 ,那么 称 其 为 “包含 缓存 " 。 

二 级 缓存 通过 包含 原则 来 获得 分 析 数据 。 也 就 是 说 ， 一 个 大 的 二 级 缓存 包括 
一 级 缓存 中 相同 的 行 。 因此， 为 了 评估 性 能 ， 可 以 假设 一 级 缓存 不 存在 。 决 定 二 
级 缓存 发 生 的 所 有 缓存 失效 数量 时 ， 可 以 假设 处 理 器 的 所 有 请 求 直 接 发 送 给 二 级 
缓存 ， 而 没有 经 过 一 级 缓存 。 








时 间 /ns 
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在 二 级 缓存 设计 的 时 候 会 考虑 去 适应 已 经 存在 的 一 级 缓存 。 二 级 缓存 的 行 大 






































小 应 当 和 一 级 缓存 的 相同 或 更 大 。 否 则 ， 如 果 二 级 ft 
缓存 的 行 大 小 小 于 一 级 缓存 ， 加 载 一 级 缓存 中 的 数 -y 
据 行 时 会 引起 二 级 缓存 的 两 次 失效 。 进 一 步 来 说 ， 缓存 
二 级 缓存 应 当 远 远大 于 一 级 缓存 ， 和 否则， 二 级 缓存 
将 起 不 到 什么 作用 。 
在 一 个 两 级 缓存 系统 中 ， 如 图 4. 14 所 示 ， 对 于 
一 级 缓存 和 二 级 缓存 ， 我 们 将 失效 率 定义 如 下 2m] ; PP: 
1. 局 部 失效 率 就 是 简单 地 将 失效 数量 除 以 访问 — |] 
请 求 数量 。 这 是 通常 意义 上 理解 的 失效 率 。 访问 处 理 器 
2. 全 局 失效 率 是 二 级 缓存 失效 数量 除 以 处 理 器 
的 请 求 数量 。 这 是 对 二 级 缓存 最 基本 的 测量 。 eve meen gee 


3. 单独 失效 率 是 指 二 级 缓存 的 失效 率 ， 如 果 二 级 缓存 是 系统 中 唯一 
的 话 。 这 是 在 包含 原则 下 定义 的 失效 率 。 如 果 二 级 缓存 包含 所 有 的 一 级 缓存 ， 
以 在 忽略 一 级 缓存 的 情况 下 计算 二 级 缓存 的 失效 率 和 处 理 器 的 访问 率 。 ee 
存 的 原则 是 基于 全 局 失效 率 和 单独 失效 率 一 致 的 基础 ， 这 可 以 在 设计 上 使 用 单独 
失效 率 来 评估 全 局 失效 率 。 

E E E e ine 

一 级 缓存 和 二 级 缓存 一 样 大 或 者 更 大 ， 在 包含 的 原则 下 ， 可 以 很 好 

re aa 

2. 当 二 级 缓存 远 远大 于 一 级 缓存 时 ， 二 级 缓存 可 以 被 认为 与 一 级 缓存 相互 
独立 。 它 的 失效 率 和 单独 失效 率 相当 。 





























例 4.1 
二 级 
一 级 缓存 
缓存 
二 级 缓存 比 一 级 缓存 大 4 借以 上 
失效 代价 : 
一 级 缓存 失效 ， 二 级 缓存 命中 : 2 个 周期 
一 级 缓存 失效 ， 二 级 缓存 失效 : 15 个 周期 


假设 我 们 有 一 个 两 级 缓存 ， 失 效率 分 别 是 4% (一 级 缓存 ) 和 1% (二 级 组 
存 ) 。 假 设 一 级 缓存 失效 、 二 级 缓存 命中 的 开销 是 2 个 周期 ， 两 者 都 失效 的 时 间 
开销 是 15 个 周期 ( 比 二 级 缓存 命中 多 13 个 周期 ) 。 如 果 处 理 器 每 条 指令 访问 一 
次 缓存 ， 可 以 计算 出 由 于 缓存 失效 所 引起 的 额外 的 CPI 的 值 : 
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一 级 缓存 失效 时 额外 的 CPI 值 

= 1.0 refr/inst x 0. 04 misses/refr x2 cycles/miss 

= 0.08 CPI 

二 级 缓存 失效 时 额外 的 CPI 值 

= 1.0 refr/inst x0. 01 misses/refr x 13 cycles/miss 

= 0.13 CPI 

注释 : 二 级 缓存 失效 时 间 开 销 为 13 个 周期 ,不 是 15 个 周期 ， 因 为 二 级 缓存 

失效 已 经 在 一 级 缓存 额外 的 CPI 中 占用 了 2 个 周期 ， 即 

所 有 影响 = 额外 的 一 级 缓存 CPL + 额外 的 二 级 缓存 CPI 
=(0.08 + 0. 13 ) CPI 
=0.21CPI 























目前 一 些 SoC 处 理 需 的 缓存 配置 如 表 4. 6 所 示 。 
表 4.6 一 些 SoC 处 理 器 的 缓存 配置 
SoC 一 级 缓存 二 级 缓存 
NetSilicon NS97751185] SKB I- 缓存 ，4KB D- 缓 存 一 
NXP LH7A404!1861 8KB [缓存 ，8KB D- 缓 存 一 
Freescale e600110!] 32KB L247, 32KB D- 缓 存 1MB ( 带 ECC) 
Freescale PowerQUICCHI!'™! 32KB 工 缓存 ，32KB D- 缓 存 256KB ( 带 ECC) 
ARM 1136J (F) -Si241 64KB 工 缓存 ，64KB D- 缓 存 最 大 512 KB 





4.11.3 ZBE 


真 包含 或 是 迎 辑 包含 不 应 当 和 统计 学 上 的 包含 相 混淆 。 一 级 缓存 所 有 的 内 容 
常 驻 二 级 缓存 ， 二 级 缓存 常常 包含 一 级 缓存 的 数据 内 容 ， 并 不 总 是 包含 。 对 于 泛 
辑 包含 ， 常 会 有 一 系列 的 要 求 。 显 而 易 见 ， 一 级 缓存 必须 是 WT 式 的 ， 二 级 缓存 
并 不 需要 。 如 果 一 级 缓存 是 CB 式 的 ， 一 级 缓存 的 行 写 操作 不 会 立即 写 到 二 级 组 
存 中 ， 这 样 一 级 缓存 和 二 级 缓存 的 内 容 就 会 不 一 致 

当 需 要 逻辑 包含 方式 时 ， 有 必要 强制 一 级 缓存 和 二 级 缓存 的 内 容 相 一 致 ， 并 
且 使 用 缓存 一 致 性 策略 。 

共享 存储 多 处 理 器 需要 整体 一 致 的 存储 映 象 ， 因 而 逻辑 包含 在 该 类 系统 设计 
中 是 一 个 首要 问题 。 


4.12 虚实 转换 
TLB 通过 将 虚拟 地 址 转换 为 实地 址 来 向 缓存 提供 地 址 。 


图 4. 15 给 出 了 一 个 两 路 相 联 TLB。 页 地 址 (虚拟 地 址 的 高 位 ) 由 需要 转换 
的 地 址 位 组 成 。 被 选择 的 虚拟 地 址 位 用 来 选中 TLB 中 的 项 。 这 些 位 是 从 虚拟 地 
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址 中 被 选择 的 〈 或 是 通过 哈 希 选中 ) 。 这 样 避免 了 大 量 的 地 址 冲突 。 例 如 ， 当 地 
址 和 数据 也 有 相同 的 低位 时 就 会 发 生 冲 突 ， 如 “000”。 虚 拟 地 址 的 大 小 等 于 logt, 
t 的 值 是 TLB 中 的 项 数 除 以 相 联 度 。 当 一 个 TLB 项 被 访问 时 ,会 读 取 一 个 虚拟 地 址 
和 实地 址 映射 对 。 虚 拟 地 址 会 和 虚拟 地 址 标签 (索引 位 之 外 虚拟 地 址 位 ) 相 比 较 。 
如 果 对 比 相 匹配 ， 相 应 的 实地 址 会 使 用 多 路 复 用 方式 从 TLB 中 输出 。 
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图 4.15 一 个 两 路 相 联 TLB 


尽管 页 地 址 的 分 配 非 常 仔细 , 但 是 在 访问 缓存 的 同时 也 会 去 访问 TLB 的 内 容 。 
HRE TLB 中 找到 转换 结果 时 ， 需 要 重复 执行 操作 ， 在 TLB 中 创建 一 个 正确 的 虚拟 - 
实地 址 对 ， 操 作 过 程 在 本 书 第 1 uE 一 一 一 路 三 
章 有 详细 描述 。 这 有 可 能 要 10 
个 周期 以 上 的 时 间 ; TLB 失效 
(没有 存 于 TLB 中 ) 是 非常 影 
响 性 能 的 。TLB 访问 在 许多 情 
况 下 类 似 缓 存 访 问 。FA TLB 总 
体 来 说 速度 较 慢 ， 但 是 四 路 或 
是 更 高 的 组 相 联 TLB 性 能 较 好 ， 








总 体 来 说 更 具 吸 引力 。 
给 th. FE AK 
图 4. 16 2 出 了 ox 型 的 64 128 256 512 1024 2048 4096 
TLB 失效 率 。FA 数据 类 似 四 TLB 项 (地 址 对 ) 


路 组 相 联 的 数据 。 图 4 16 典型 的 TLB 失效 率 
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对 于 那些 SoC 或 基于 主板 的 虚拟 地 址 系统 ， 需 要 额外 考虑 其 他 情况 ; 

1. TLB 太 小 会 导致 过 多 的 TLB 失效 错误 ， 给 程序 运行 增加 了 很 多 时 间 开 销 。 

2. 如 果 缓 存 使 用 实际 地 址 ， 访 问 TLB 必须 在 访问 缓存 之 前 ， 这 样 增加 了 组 
存 访问 时 间 。 

过 多 的 TLB 缺失 可 以 通过 TLB 的 优化 设计 来 控制 。TLB 的 大 小 和 组 织 形式 
设计 需要 根据 目标 系统 的 性 能 来 确定 。 

一 般 来 说 ， 大 多 数 的 TLB 使 用 指令 和 数据 分 离 转 换 的 方式 。 这 两 种 TLB 都 
可 能 使 用 128 项 、 两 路 组 相 联 ， 以 及 使 用 LRU 替换 算法 。 目 前 ， 一 些 SoC 处 理 
器 的 TLB 配置 如 表 4.7 所 示 。 


表 4.7 一 些 SoC 处 理 器 TLB 配置 














SoC 组 织 形式 项 数 
Freescale e600!!! 独立 的 -LTLB，D-TLB 128 项 ， 两 路 组 相 联 ，LRU 
NXP LH7A4041186] 独立 的 -LTLB，D-TLB 每 个 64 项 
NetSilicon NS9775 ( ARM926EJ-S) [1851 混合 32 项 ， 两 路 组 相 联 








4.13 片上 存储 系统 


片上 存储 设计 是 通用 存储 系统 设计 的 一 个 特例 ，4. 14 节 将 讨论 通用 存储 系 
统 的 设计 。 设 计 者 在 存储 系统 本 身 的 选择 及 整体 缓存 - 主 存 组 织 形 式 上 有 更 大 的 
灵活 性 。 一 旦 掌握 了 应 用 程序 的 特性 ， 可 以 估计 出 需要 存储 的 程序 和 数据 的 大 
小 。 很 多 情况 下 ， 部 分 程序 会 以 固件 ROM 的 形式 存储 。 剩 余 的 存储 器 是 由 
SRAM 或 DRAM 构成 。SRAM 的 实现 方式 是 和 实现 处 理 器 的 处 理 过 程 一 样 的 ， 一 般 
情况 下 ，DRAM 则 不 同 。1 个 SRAM 位 包括 了 6 个 晶体 管 单元 ，DRAM 则 只 有 1 个 
晶体 管 加 上 1 个 深 沟 电容 。DRAM 单元 设计 目标 是 争取 最 大 的 密度 ， 因 而 使 用 了 很 
少 的 连 线 层 。DRAM 的 设计 目标 是 低 刷 新 率 和 加 强 的 低 漏电 电流 。1 个 DRAM 单元 
使 用 了 纳米 级 长 度 的 晶体 管 ， 更 高 的 临界 电压 (Vi)， 就 为 了 能 够 达到 一 个 更 低 的 
漏电 电流 。 这 样 更 容易 导致 门 电路 驱动 过 度 及 更 慢 的 翻转 。 对 于 一 颗 独 立 芯 片 ， 
最 终 的 结果 就 是 SRAM 的 速度 比 DRAM 快 10 ~20 倍 ， 密 度 是 其 1710 UF, 

eDRAMI2 .25 的 引入 对 于 片上 存储 设计 来 说 是 一 个 折 中 的 选择 。 因 为 在 SoC 
上 实现 eDRAM 需要 更 多 的 处 理 步 又 ， 需 要 大 量 的 加 工 制造 成 本 ， 并 被 看 做 是 硬 
IP (或 者 至 少 是 固 IP)。 因 为 eDRAM 有 一 项 开销 ( 见 图 4.17) ， 所 以 导致 相对 
于 DRAM 来 说 密度 要 小 。eDRAM 的 设计 复杂 ， 包 括 制造 三 层 额 外 的 掩 腊 层 ， 这 
会 导致 比 DRAM 多 20% 的 成 本 。 
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相关 eDRAM 大 小 


制造 流程 上 的 面积 开销 





一 级 
缓存 

















片上 
eDRAM 




















图 4.17 片上 SRAM 和 eDRAM (eDRAM 必须 符合 处 理 逻 辑 的 要 求 ， 
意味 着 一 种 开销 ; SRAM 不 受 影响 ) 


对 于 采用 eDRAM 技术 的 SoC， 可 以 在 同一 块 世 片上 集成 高 速 、 高 漏电 逻辑 品 
体 管 和 低速 、 低 漏电 的 存储 晶体 管 。eDRAM 的 优势 在 于 集成 密度 高 ， 如 图 4. 18 所 
因此 选择 eDRAM 而 不 是 SRAM 的 一 个 重要 因素 就 是 基于 存储 器 大 小 的 要 求 。 
eDRAM 在 付出 加 工 成 本 的 代价 后 ， 其 时 间 参 数 比 传统 的 DRAM 好 很 多 。 
eDRAM 的 周期 时 间 (及 访问 时 间 ) 接近 于 SRAM， 如 图 4. 19 所 示 。 所 有 类 型 的 片 
上 存储 器 都 可 以 借助 带宽 的 优势 ， 每 个 周期 都 可 以 作为 一 个 整体 的 存储 列 被 访问 。 

















1 8 16 
SRAM 存 储 大 小 /MB 
图 4.18 随 存储 大 小 改变 eDRAM 的 
相对 密度 优势 示意 图 


周期 时 间 / ns 


12 p 








130 90 65 
工艺 /nm 


图 4.19 随机 访 存 时 间 周 期 数 


选择 存储 器 的 最 后 一 个 因素 是 考虑 到 辐射 带 来 的 预期 错误 率 ( 称 软 错误 率 9) 。 
每 个 DRAM 单元 比 SRAM 单元 存储 的 电荷 要 多 很 多 。SRAM 单元 更 快 也 更 容易 
发 生 翻 转 ， 这 样 就 导致 更 高 的 SER。 另 外 ， 对 于 一 个 SRAM 单元 来 说 ， 从 工艺 角 








O ” 软 错误 率 : Soft Error Rate, SER, 
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度 来 看 ， 决 定 产生 一 个 错误 的 临界 电 200p 
荷 数量 会 随 着 增 大 供给 电压 和 单元 容 
量 而 降低 。 不 同 点 如 图 4.20 所 示 。 
甚至 在 130nm 特征 大 小 的 情况 下 ， a, 
SRAM 的 SER KAW EL eDRAM 高 1800 
mi. “OK, XA PE RY 
SRAM 来 说 ， 可 以 使 用 更 广泛 的 ECC Peel 
来 进行 弥补 ， 但 这 也 会 带 来 一 些 ECC 








SERIE 











的 自身 的 开销 。 

总 而 言 之 , 片上 存储 实现 技术 的 2 i i 
选择 依赖 制造 的 复杂 程度 和 存储 容量 工艺 /nm 
的 要 求 。 图 4.20 SRAM 相对 于 eDRAM 的 SER 





4.14 片 外 (基于 主板 ) 存储 系统 


在 众多 处 理 器 设计 中 〈 可 能 除了 SoC 外 的 所 有 情况) ， 主 存 系 统 都 是 主要 的 
设计 挑战 。 因 为 处 理 器 的 整体 设计 会 相当 复杂 ， 所 以 服务 于 相应 处 理 器 的 存储 系 
统 的 设计 也 会 相应 非常 复杂 。 

存储 模块 包括 所 有 的 需要 将 缓存 行 通过 总 线 传 送 给 处 理 器 的 芯片 。 绥 存 行 的 
传送 是 以 总 线 突 发 字 的 传送 方式 进行 的 。 每 个 存储 模块 包含 两 个 重要 的 参数 : 模 
块 访问 时 间 和 模块 周期 时 间 。 模 块 访 问 时 间 是 指 对 于 一 个 特定 的 存储 器 ， 当 在 地 
址 寄存 器 给 出 有 效 的 地 址 时 ， 从 存储 器 中 读 取 一 个 字 到 输出 缓冲 寄存 絮 所 消耗 的 时 
间 。 存 储 器 服务 (周期 ) 时 间 是 指 对 同一 存储 模块 的 两 次 直接 访问 之 间 的 最 小 时 
间 。 不 同 的 工艺 导致 了 访问 时 间 和 服务 时 间 之 间 的 巨大 差别 。 访 问 时 间 是 指 处 理 器 
访问 存储 行 操 作 的 全 部 时 间 。 
在 一 个 小 型 简单 的 存储 器 系统 
中 ， 访 问 时 间 可 能 比 芯 片 访 问 
时 间 加 上 多 路 复 用 和 传输 延迟 
稍 多 一 点 。 服 务 时 间接 近 忌 片 DRAM} 
的 周期 时 间 。 在 一 个 大 型 多 模 
SRF ii A SEP ( 见 图 4.21), 
访问 时 间 会 显著 增加 ， 目 前 来 MH 
说 包括 模块 访问 时 间 加 上 传输 
时 间 、 总 线 访问 开销 、 错 误 检 ”图 4.21 复杂 存储 系统 的 访问 延迟 (访问 时 间 包 括 
测 及 纠正 等 延迟 。 芯片 访问 、 组 件 开 销 和 总 线 传输 ) 
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多 年 来 ， 随 着 DRAM 存 取 忆 片 的 稳步 进展 ， 近 几 年 越 来 越 重 视 存 储 世 片 性 
能 〈 而 不 仅仅 是 大 小 ) 。 

对 于 DRAM 来 说 ， 最 重要 的 成 就 是 同步 DRAM (Synchronous DRAM, SDRAM) 
的 出 现 。 这 种 技术 将 DRAM 访问 和 周期 时 间 与 总 线 时 间 同 步 起 来 。 其 他 方面 的 提 
高 加 快 了 总 线 和 模块 的 数据 传输 速度 ， 同 时 提高 了 它们 的 电器 特性 。 现 在 有 各 种 
各 样 的 SDRAM。 基 本 的 DRAM 类 型 如 下 : 

1. DRAM 一 一 异步 DRAM, 

2. SDRAM 一 一 存储 模块 时 序 和 存储 絮 总 线 时 钟 同步 。 

3. 双 速 SDRAM (Double Data Rate SDRAM, DDR SDRAM) 一 一 存储 模块 在 
每 个 总 线 周 期 获取 双 倍 长 度 的 传输 单元 ， 并 且 以 两 倍 的 总 线 时 钟 速率 传输 。 

下 面 将 介绍 异步 DRAM 的 基础 知识 。 之 后 将 介绍 更 加 高 级 的 SDRAM。 





4.15 简单 DRAM 和 存储 阵列 


最 简单 的 异步 DRAM 包括 一 个 单 存储 阵列 ， 具 有 一 个 〈 有 时 候 是 4 个 或 6 
个 ) 输出 位 。 芯 片 内 部 是 一 个 行列 编 址 的 二 维 存储 单元 阵列 。 如 此 ， 内 存 地 址 
的 一 半 用 来 识别 行 地址 ，2”“ 行 中 的 一 行 ， 男 一 半 的 地 址 同样 地 用 来 识别 2” 列 
中 的 一 列 ( 见 图 4. 22) 。 单 元 本 身 保存 的 数据 非常 简单 ， 仅 包括 一 个 存储 电荷 的 
MOS 唱 体 管 。 随 着 时 间 的 推移 ， 单 元 一 直 在 放电 ， 所 以 几 毫 秒 就 需要 刷新 一 次 。 
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图 4.22 存储 芯片 示意 图 
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在 大 容量 的 存储 锅 中 ， 地 址 的 连 线 数 决定 着 芯片 的 引 脚 数 。 为 了 保护 这 些 引 
脚 ， 也 为 了 获得 更 好 的 全 局 密度 而 提供 一 个 更 小 封装 ， 行 和 列 地 址 复 用 映射 到 这 
些 连 线 (输入 引 脚 )， 这些 同 时 映射 到 片 内 的 内 容 项 。 有 两 个 额外 的 连 线 非常 重 
要 : 行 地 址 控制 器 (Row Address Strobe, RAS) 和 列 地 址 控制 器 (Colum Address 
Strope，CAS) 。 这 些 控制 门 电路 首先 允许 行 地 址 ， 然 后 运行 列 地 址 进入 芯片 。 行 
和 列 地 址 然后 通过 译 码 来 选择 2” 个 可 能 行 的 一 行 。 行 和 列 的 交叉 部 分 就 是 需要 
的 信息 位 。 在 一 次 读 周 期 内 ， 列 线路 信号 经 过 感知 放大 器 放大 后 传送 给 输出 引 肢 
(数据 出 口 ，D,,)。 在 一 次 写 周 期 内 ,通过 可 写 (Write Enable WE) 信号 使 数据 
输入 (Da) 信号 有 效 ， 从 而 用 来 指定 选择 的 位 地 址 内 容 。 

所 有 的 这 些 行为 都 以 近似 图 4. 23 所 示 的 时 序 发 生 。 在 存储 器 读 操 作 的 一 开 
始 ，RAS 线 就 会 被 激活 。 当 RAS 激活 并 且 CAS 关闭 的 时 候 ， 地 址 线 上 的 信和 号 会 
被 解释 为 行 地 址 然后 保存 到 行 地 址 寄存 器 。 这 样 可 以 激活 行 解码 器 并 且 选 择 存储 
阵列 里 面 的 行 线路 。 然 后 CAS 激活 ， 让 列 地 址 线路 将 信号 输入 到 列 地 址 寄存 器 
中 。 注 意 以 下 一 些 内 容 : 

读 操 作 


RAS _ o 






































— faible 


图 4.23 异步 DRAM 芯片 时 序 








1. 考虑 到 列 地 址 信号 ，CAS 的 两 次 上 升 时 序 代表 着 信号 的 最 早 和 最 晚 有 效 
时 间 。 
2. WE 信号 在 读 操 作 的 时 候 一 直 处 于 关闭 状态 。 
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然后 列 地 址 译 码 器 选择 一 列 线路 ; 在 行 和 列 的 交叉 部 分 就 是 需要 的 数据 位 。 
在 一 个 读 周期 内 ，WE 信和 号 一 直 处 于 关闭 〈 低 位 ) 状态 ， 输 出 线路 (Dau) 处 于 
高 阻 状态 直到 被 低位 或 是 高 位 信号 激活 ， 高 位 或 是 低位 依赖 所 有 选择 的 存储 单元 
的 内 容 。 

从 RAS 开始 有 效 到 数据 输出 线路 被 激活 ， 这 上段 时 间 值 对 于 存储 模块 的 设计 
非常 重要 。 这 段 时 间 被 称 为 蕊 片 访问 时 间 i ,cs。 其 他 重要 的 发 片 时 序 参 数 是 
存储 芯片 的 周期 时 间 fos sae。 周期 时 间 和 访问 时 间 不 一 样 ， 在 此 时 间 内 ， 被 选择 
的 行 和 列 线路 信号 必须 在 下 一 次 地 址 能 进入 及 重复 读 操 作 之 前 得 到 恢复 。 

异步 DRAM 模块 不 仅 是 由 一 些 存储 芯片 组 成 (ILRI 4. 24 ) 。 在 一 个 存储 系 
统 中 ， 假 设 每 个 物理 字 p 位， 一 个 模块 中 可 以 存储 2"” 个 字 ,，n 位 地 址 进入 到 模块 
并 且 一 般 情 况 下 直接 进入 一 个 动态 存储 控制 器 芯片 。 这 个 芯片 ， 与 内 存 时 序 控制 
器 相连 接 ， 提 供 以 下 功能 : 

1. 将 nn 个 地 址 位 多 路 复 用 为 行 或 列 地址 ， 给 存储 芯片 使 用 。 

2. 正确 的 RAS 和 CAS 信号 在 合适 的 时 间 给 出 。 

3. 提供 存储 系统 的 定时 刷新 。 























ptt (数据 ) 














存储 时 序 
控制 器 





图 4.24 异步 DRAM 存储 模块 示意 图 


因为 动态 存储 控制 器 的 输出 控制 所 有 物理 字 的 bp 位， 也 就 是 pp 个 蕊 片 ， 所 以 
控制 器 的 输出 也 需要 缓冲 。 当 存储 器 读 操作 完成 后 ， 数 据 输出 信号 被 连接 在 存储 
器 的 总 线 驱 动 ， 这 个 总 线 也 是 所 有 存储 模块 输入 /输出 的 接口 。 

DRAM 芯片 中 有 两 个 特点 影响 存储 系统 的 设计 。 那 些 “ 突 发 ”状态 类 型 特 
点 被 称 为 

1. 有 段 模式 

2. 页 模式 
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这 两 种 技术 都 是 为 了 提高 存储 字 传 送 速率 。 在 段 模式 下 ， 单 地 址 ( 行 或 列 ) 
被 提供 给 存储 芯片 ，CAS 线 信号 在 重复 切换 。 在 内 部 ， 必 片 将 这 个 CAS 切换 转 
换 成 列 地 址 低位 模 数 2” 的 级 数 。 这 样 ， 连 续 的 字 可 以 从 存储 芯片 中 被 高 速 地 访 
问 。 例 如 ， 当 ww =2， 可 以 访问 4 个 连续 的 低位 地 址 ， 如 下 : 


一 (00) 一 [0] 一 (10] 一 [1 一 














并 且 返 回 到 原始 的 位 地 址 。 

在 页 模式 下 ， 单独 的 行 会 被 选择 ， 然 后 通过 重复 地 激活 CAS ER (类 似 段 
模式 ， 见 图 4. 23 ) ， 非 连续 的 列 地 址 会 高 速 地 输入 进来 。 通 常情 况 下 ， 这 种 方式 
用 来 填充 缓存 行 。 

由 于 常用 术语 习惯 的 不 同 ， 此 处 段 模式 通常 指 从 一 个 四 字 地 址 边界 开始 访问 
(最 多 ) 四 个 连续 的 字 (一 个 段 )。 表 4.8 给 出 了 一 些 SoC 处 理 器 存储 设计 ， 包 
含 了 一 些 SoC 处 理 器 存储 大 小 、 位 置 和 类 型 。 最 新 的 DDR SDRAM 和 之 后 的 一 些 
会 在 下 一 部 分 讨论 。 











表 4.8 一 些 SoC 处 理 器 的 存储 设计 














SoC 存储 类 型 存储 大 小 存储 位 置 
Intel PXA27x! 32] SRAM 256KB 片上 
Philips Nexperia PNX170011991 DDR SDRAM 256MB 片 外 
Intel IOP333151] DDR SDRAM 2GB 片 外 











4.15.1 SDRAM 和 DDR SDRAM 


DRAM 最 重要 的 技术 提高 是 SDRAM 技术 。 如 前 面 提 到 的 一 样 ， 这 种 方法 ， 
将 访问 DRAM 和 周期 与 总 线 周 期 相同 步 。 

这 种 方式 有 一 系列 巨大 的 优势 。 它 消除 了 分 隔 存 储 器 时 钟 芯片 生成 RAS 和 
CAS 信号 的 需要 。 在 总 线 时 钟 上 升 沿 进行 同步 。 同 样 的 ， 通 过 扩展 封装 方式 来 
适应 多 输出 引 脚 ， 有 4、8 和 16 个 引 脚 版 本 ,这 样 可 以 允许 存储 器 有 更 多 尺寸 的 
模块 。 

下 面 将 注意 力 放 在 总 线 和 存储 总 线 的 接口 上 ， 通 过 利用 不 同 的 数据 线 和 地 址 
线 ， 进 一 步 提高 了 总 线 带 宽 。 现 在 ， 当 时 钟 信 号 上 升 时 ， 辅 助 时 钟 (complement 
clock) 下 降 。 但 是 在 时 钟 周期 的 中 间 时 ， 时 钟 信号 下 降 ， 补 充 时 钟 上 升 。 这 让 
同步 数据 在 一 个 周期 内 传送 两 次 成 为 可 能 ， 当 时 钟 信号 处 在 上 升 沿 和 当 辅 助 时 钟 
处 在 上 升 沿 时 进行 传递 。 通 过 使 用 这 种 方法 ， 可 以 将 总 线 的 数据 传输 速率 提高 一 
倍 。 采 用 这 种 方式 的 存储 芯片 就 是 DDR SDRAM ( 见 图 4.25)。 同 样 的 ， 当 多 个 
列 访问 同一 行 时 ， 也 可 以 在 选中 一 行 后 ， 让 其 处 于 选中 状态 (激活 的 ) ， 而 不 是 
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对 于 每 次 内 存 访问 只 选择 一 行 和 一 列 ， 如 图 4. 26 所 示 。 
块 3 
块 2 | 行 
zia pee 3 
holt 
AO enga i 
译 码 器 块 0 
行 地 址 
NZ 
sieht Bl aos i 
HJE =i 数据 掩 码 | 人 n | Mux ar 
和 选择 寄存 器 
驱动 
列 地 址 ae 
ale fh 
列 译 码 器 
图 4.25 ŠB DDR SDRAM 配置 
行 和 块 地 
址 激活 列 地 址 Dı Dy D; D4 
7 r AAAA 
一 个 周期 一 个 周期 





图 4.26 从 DDR SDRAM 读 取 一 行 示意 图 





在 空间 局 部 性 允许 的 情况 下 ， 通 过 消除 行 选择 延迟 ， 读 和 写 的 次 数 可 以 增 
多 。 当 然 ， 当 一 个 新 的 行 被 访问 的 时 候 ， 行 激活 时 间 也 必须 加 到 访问 时 间 之 内 。 
多 DRAM 阵列 ， 通常 为 4 或 是 8， 是 SDRAM 的 又 一 个 技术 提高 。 按 照 世 片 的 设 
计 方 式 ， 用 户 可 以 通过 程序 独立 访问 或 是 顺序 访问 这 些 阵列 。 在 之 前 的 情况 下 ， 
每 一 个 阵列 可 以 拥有 一 个 独立 的 激活 行 选择 ， 可 以 提供 与 多 个 列 交 叉 访 问 。 如 果 
这 些 阵列 被 顺序 访问 ， 阵 列 中 相应 的 行 就 会 被 激活 ， 这 样 可 以 支持 更 长 的 突 发 连 
续 数据 传输 。 这 种 方式 在 图 形 学 的 应 用 中 尤其 有 用 。 

现代 存储 芯片 时 间 参 数 的 改善 归 因 于 对 总 线 和 芯片 电气 特性 的 认真 关注 。 除 
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了 使 用 不 同 的 信号 (最 初 是 数据 信号 ， 现 在 是 所 有 信号 ) 外 ， 总 线 还 被 设计 成 
带 状 传输 线 。 随 着 DDR3 (与 图 形 双 数 据 速 率 非常 相关 ) 的 出 现 ， 终端 被 集成 到 
片上 (而 不 仅 是 在 总 线 的 尾 端 )， 并 是 还 需要 特别 的 校准 技术 来 确保 精确 终端 。 

拥有 独立 阵列 支持 交叉 行 访问 的 DDR 芯片 必须 从 这 列 中 获取 输出 一 个 2n 的 数 
据 来 支持 DDR。 因 此 ， 有 四 路 输出 线 的 芯片 必须 有 可 以 读 取 8 位 的 阵列 。DDR2 阵 
列 典 型 的 特点 就 是 读 取 4n， 所 以 当 n =4， 阵 列 应 当 可 以 获取 16 位 。 因 为 每 四 路 总 
线 半 个 周期 阵列 只 被 访问 一 次 ， 所 以 这 使 更 高 的 数据 传输 速率 成 为 可 能 。 

表 4.9 和 表 4. 10 给 出 了 一 些 典 型 DRAM 的 参数 。 在 写 这 本 书 的 时 候 ， 这 些 典 
型 的 DRAM 已 经 在 生产 了 ， 而 异步 DRAM 和 SDRAM 作为 遗留 部 分 通常 不 会 用 于 
新 的 开发 。DDR3 部 分 已 经 被 引入 到 图 形 应 用 的 部 分 。 在 大 多 数 情况 下 ， 这 些 参数 
都 是 典型 并 针对 常用 配置 的 。 例 如 ,异步 DRAM 有 1、4、 和 16 输出 引 脚 的 配置 。 
DDR SDRAM 有 4、8 和 16 个 输出 引 脚 的 配置 。 也 有 许多 其 他 的 配置 种 类 。 


表 4.9 64 位 模块 下 典型 DRAM 芯片 的 配置 参数 















































SoC DRAM SDRAM DDR1 DDR2 GDDR3 (DDR3) 
SORES Fr AE 1Gb 1Gb 1Gb 256Mb 
输出 数据 引 脚 芯片 1 4 4 4 32 
取得 阵列 数据 位 1 4 8 16 32 
阵列 数 1 4 4 8 4 
芯片 /模块 数 64 以 上 16 16 16 4 
突 发 传输 字 1~4 1, 2,4 2, 4, 8 4,8 4, 8, 16 
行 16K 16K 
列 2048 x8 521 x 16 512 x32 
32 字 节 行 / 行 / 阵 列 2048 1024 2048 x4 














表 4.10 一 些 典 型 DRAM 模块 的 时 序 参 数 (64 位 ) 



































SoC DRAM SDRAM DDRI DDR2 DDR3 
总 线 时 钟 率 /MHz 异步 100 133 266 600 
启动 CAS/ns 30 30 20 15 12 
列 地 址 到 数据 输出 1 (实际 时 间 ) /ns 40 30 20 15 12 
行 访问 (访问 新 行 ) /ns 140 90 51 36 28 
行 访问 (一 个 激活 行 之 内 ) /ns 120 60 31 21 16 
行 间隔 时 间 x1 x4 x4 x8 x1 





多 种 (最 多 4 种 ) DDR2 SDRAM 可 以 配置 使 用 公共 总 线 (LE 4.27), Æ 
这 种 情况 下 ， 当 一 个 芯片 被 激活 后 (如 有 一 个 激活 的 行 )， 片 上 终端 就 不 会 被 使 
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用 。 当 芯片 上 没有 被 激活 的 行 ， 终 端 才 被 使 用 。 典 型 的 服务 器 配置 ， 一 般 有 四 个 
模块 共享 一 个 总 线 (通道 ) ， 一 个 最 多 管理 两 条 总 线 的 内 存 控制 器 ， 如 图 4. 27 
所 示 。 之 所 以 数量 最 多 为 两 个 的 原因 是 大 量 的 调谐 带 和 微波 传输 线 必须 将 控制 絮 
和 总 线 连接 起 来 。 更 高 级 的 技术 是 在 模块 和 非常 高 速 通道 之 间 增 加 一 个 缓冲 器 。 
这 种 高 级 的 通道 拥有 更 小 的 带宽 (如 1 个 字 节 ) 但 是 更 高 的 传输 速率 (如 8 倍 
速率 ) 。 网 络 的 影响 使 得 每 个 模块 的 带宽 都 一 样 ， 但 是 现在 接 和 控制 器 的 线路 数 
量 已 经 减少 ， 却 能 够 使 控制 器 控制 更 多 的 通道 (如 8 个 ) 。 





存储 控制 器 





图 4.27 SDRAM 通道 和 控制 器 





4.15.2 ”存储 缓冲 器 


在 停止 执行 和 产生 更 多 的 访 存 操作 之 前 ， 处 理 咒 只 能 保存 有 限 数 量 的 未 处 理 
的 访 存 操作 。 程 序 中 的 逻辑 依赖 或 处 理 器 没有 足够 大 空间 缓冲 未 处 理 的 访 存 操作 
时 就 会 出 现 这 种 情况 。 这 种 情况 会 导致 因为 处 理 过 程 中 的 暂停 ,使 得 可 用 存储 带 
宽 逐 渐 下 降 ， 因 为 存储 器 能 处 理 的 访 存 操作 和 处 理 器 发 出 请 求 数量 一 样 多 。 

逻辑 依赖 的 情况 包括 分 支 和 地 址 互 锁 。 在 访 存 操作 没有 返回 结果 之 前 ， 程 序 
的 执行 只 能 挂 起 。 

对 于 每 一 个 等 待 处 理 的 访 存 操作 ， 与 之 关联 是 一 些 特定 的 信息 ， 用 于 标注 
请 求 属性 ( 如 读 或 者 写 操 作 ) 、 内 存 地 址 及 足够 的 路 由 信息 用 来 将 请 求 数据 返 
回 给 请 求 者 。 所 有 这 些 信 息 必 须 被 缓存 起 来 ， 存 储 在 处 理 器 或 者 存储 系统 中 ， 
直到 访 存 请 求 完成 。 当 缓存 充满 时 ， 后 面 的 请 求 不 会 被 接受 ， 此 时 需要 处 理 顺 
暂停 。 

在 交叉 存储 中 ， 访 存 模块 之 间 的 拥塞 情况 通常 都 不 相同 。 多 余 的 访 存 请 求 会 
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发 送 到 相对 空闲 的 模块 中 ， 并 且 会 增 大 网 络 带宽 ， 因 此 尽 可 能 增 大 处 理 需 的 请 求 
是 非常 有 用 的 。 如 果 尽 可 能 增 大 存储 的 带宽 是 主要 目的 的 话 ， 需 要 存储 访 存 请 求 
达到 一 定 的 数量 ， 直 到 程序 中 的 逻辑 依赖 成 为 限制 因素 。 





4.16 处 理 器 -存储 器 交互 简单 模型 


在 一 个 多 处 理 右 或 是 复杂 单 核 处 理 絮 系统 中 ， 访 存 请 求 有 可 能 阻塞 存储 系 
统 。 要 么 是 多 个 请 求 同 时 产生 ， 导 致 总 线 和 网 络 拥塞 ;要么 是 不 同 来 源 的 请 求 同 
时 访问 存储 系统 。 那 些 不 能 迅速 被 处 理 的 访 存 请 求 导致 对 存储 器 的 争 用 。 这 种 争 
用 竞争 降低 了 带宽 ， 并 且 有 可 能 使 存储 带 带 宽 降 低 。 

在 这 种 可 能 最 简单 的 实现 方式 下 ， 一 个 简单 处 理 器 发 出 一 个 访 存 请 求 给 一 个 
单独 的 存储 模块 。 处 理 器 暂停 运行 并 等 竺 存储 模块 提供 服务 。 当 模块 有 反馈 时 ， 
处 理 需 恢复 运行 。 在 这 种 实现 方式 下 ， 结 果 可 以 被 完全 预测 。 因 为 在 同一 时 间 只 
有 一 个 访 存 请 求 发 送 给 存储 模块 ， 所 以 不 会 产生 苋 争 。 接 下 来 ,假设 有 nn 个 简单 
的 处 理 融 访问 m 个 独立 的 模块 。 当 多 人 处 理 带 访问 相同 的 模块 时 ,竞争 就 会 产生 。 
竞争 会 降低 每 个 处 理 器 获得 的 带宽 大 小 。 更 进一步 地 说 ， 例 如 ， 一 个 配置 为 非 阻 
塞 式 缓存 的 处 理 器 在 同一 个 存储 周期 产生 个 请 求 ， 这 种 情况 类 似 n 个 处 理 器 和 
m 个 模块 的 存储 系统 产生 的 结果 ， 至 少 从 一 个 建 模 的 角度 看 是 这 样 的 。 但 是 在 现 
代 系 统 中 ， 处 理 器 通常 会 对 存储 系统 进行 缓存 。 一 个 处 理 需 是 否 会 在 访问 缓存 的 
时 候 因为 存储 器 或 者 总 线 竞 争 而 降低 速度 ， 取 决 于 缓存 设计 和 分 享 同 一 存储 系统 
的 处 理 器 的 服务 率 。 

假设 一 个 有 m 个 模块 的 集合 ， 每 个 模块 的 服务 时 间 为 7.， 访 问 时 间 为 7.,， 
并 且 给 定 一 个 特定 的 处 理 器 访问 率 ， 那 么 如 何 模拟 从 这 些 存储 模块 中 获得 的 带 
宽 ? 如 何 计算 整体 有 效 访问 时 间 ? 显而易见 ， 那 些 低 优先 级 插入 的 模块 只 能 是 对 
带宽 大 小 有 帮助 的 模块 ， 因 此 它们 决定 m 值 。 从 存储 系统 的 角度 来 看 ， 只 要 访 
问 的 次 数 统计 值 保 持 不 变 ， 无 论 由 于 个 处 理 需 组 成 的 处 理 器 系统 是 否 每 个 存储 周 
期 产生 一 次 访 存 请 求 ， 或 者 是 一 个 处 理 带 每 个 存储 周期 产生 nn 次 访问 ， 对 结果 的 
影响 都 是 无 关 紧 要 的 。 因 此 ， 对 存储 系统 的 分 析 同 样 适 用 于 多 处 理 器 系统 和 超标 
量 处 理 器 。 访 问 速 率 ， 每 隐 时间 内 n 次 访问 ， 被 称 为 发 起 提交 请 求 率 (Offered 
Request Rate) ， 它 代表 非 缓存 处 理 融 系统 对 主 存 的 峰值 需求 。 


4.16.1 简单 多 处 理 器 和 存储 器 模型 


为 了 设计 一 款 有 用 的 存储 融 模 型， 就 需要 一 个 处 理 器 模型 。 在 这 里 的 分 析 
中 ， 用 一 个 单 处 理 需 作为 一 个 简单 多 处 理 需 的 模型 。 对 于 每 个 简单 处 理 需 来 说 ， 
当前 面 的 访问 被 满足 后 ， 就 可 以 发 起 男 一 次 访问 请 求 。 在 这 种 模型 下 ， 可 以 改变 
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处 理 器 的 数量 和 存储 模块 的 数量 ， 并 且 保 持 地 址 访 存 / 数 据 返 回 均衡 。 为 了 把 一 
个 单 处 理 器 模型 转化 为 一 个 对 等 的 多 处 理 器 模型 ， 设 计 者 必须 决定 每 个 模块 服务 
时 间 内 向 存储 模块 发 送 的 请 求 数量 ，7. =7.。 

一 个 简单 的 处 理 带 发 出 一 个 访 存 请 求 并 等 待 回 应 。 一 个 流水 线 处 理 器 会 对 不 
同 的 存储 器 缓冲 区 发 出 请 求 ， 而 不 必 等 待 某 个 访 存 请 求 的 返回 。N 个 简单 处 理 
器 ， 每 个 处 理 器 每 7. 内 发 出 一 条 访 存 请 求 ， 和 一 个 流水 线 处 理 器 每 7 发 出 nn 个 
请 求 的 值 是 近似 等 同 的 〈 见 图 4.28) 。 

建 模 假设 : 根据 渐 近 线 分 析 , 这 些 是 相等 的 











n 个 处 理 器 1 个 处 理 器 
每 个 7 产生 一 次 请 求 每 个 7 产生 n 次 请 求 








图 4.28 简单 的 处 理 器 等 价 寻 找 方法 








在 接 下 来 的 讨论 中 ,使 用 两 个 符号 来 代表 存储 系统 的 带宽 值 : 

1. 8。 每 7. 时间 内 能 够 响应 的 请 求 数 。 有 了 时候 也 会 给 B 加 上 参数 值 ， 如 B 
(m, n) RÆ B(m)。 

2. Bw。 每 秒 响应 的 请 求 数量 ，Bw = B/T,. 

为 了 将 这 些 定义 转化 为 基于 缓存 的 系统 ， 响 应 时 间 7 是 存储 系统 处 理 缓存 
失效 的 时 间 。 存储 模块 的 数量 m， 是 存储 系统 能 够 一 次 同时 处 理 的 缓存 失效 的 次 
数 。n 是 每 个 7 时间 内 的 所 有 请 求 数量 。 这 是 每 个 处 理 器 7, 内 所 有 失效 次 数 的 
预计 值 乘 以 所 有 处理 器 发 出 的 请 求 次 数 。 


4.16.2 Strecker-Ravi 模型 














这 是 个 简单 但 有 效 的 竞争 评估 模型 。 最 初 的 模型 是 由 Strecker 搭建 出 来 ， 
之 后 由 Ravi 独立 开发 完善 ”| 。 在 此 模型 中 ， 每 个 存储 周期 假设 有 个 简单 处 理 
器 访 存 请 求 ， 且 有 m 个 存储 模块 。 男 外 ,假设 不 存在 总 线 竞 争 。Strecker 模型 假 
设 处 理 器 的 访 存 请 求 模式 是 统一 的 ， 每 个 请 求 访问 某 个 特定 的 存储 模块 的 概率 都 
是 1/m。 最 重要 的 模型 假设 是 存储 系统 在 每 个 周期 的 最 开始 的 状态 是 不 依赖 上 一 
个 行为 的 影响 的 ， 因 此 也 不 依赖 过 去 的 竞争 。 没 有 响应 的 请 求 在 存储 周期 的 最 后 
被 抛弃 。 

以 下 是 模型 中 的 近似 假设 : 
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1. 只 要 上 一 次 请 求 得 到 满足 ， 处 理 器 就 可 以 发 出 另 一 个 请 求 。 

2. 每 个 处 理 器 的 访 存 请 求 模式 都 是 统一 分 配 的 。 也 就 是 说 ， 每 个 请 求 访问 
一 个 特定 的 存储 模块 的 概率 都 是 1/m。 

3. 存储 系统 在 每 个 存储 周期 的 最 初 状态 是 被 忽略 的 ， 假 设 在 每 个 周期 的 最 
后 会 丢弃 没有 响应 的 请 求 ， 处 理 器 此 时 可 以 随机 地 发 出 新 的 请 求 。 

分 析 

FAB (m, n) 代表 每 个 存储 周期 的 平均 访 存 请 求 ， 相 当 于 每 个 存储 周期 中 
存储 模块 的 “ 忙 ” 状 态 的 平均 数量 。 对 于 给 定 的 模块 ， 每 个 存储 周期 产生 的 事 
件 的 角度 分 析 ， 可 以 得 出 : 

对 于 一 个 处 理 器 来 说 ，Prob (不 会 访问 此 存储 模块 的 概率 ) = (1-1/m )， 

Prob( 没 有 处 理 器 访问 这 个 存储 模块 的 概率 ) = Prob( 模 块 空闲 的 概率 ) 

= (1-I/m) 
Prob ( 模块 忙 的 概率 ) =1- (1 -1/m )" 

B (m, n) = 忙 模块 的 平均 数量 =m (1- (1-1/m )") 

由 于 竞争 的 原因 ， 能 够 获得 的 存储 带宽 比 理 论 的 最 大 值 要 小 。 忽 略 掉 之 前 周 
期 的 阻塞 的 情况 下 ， 这 种 分 析 结 果 能 够 得 到 乐观 的 带宽 值 。 当 然 ， 这 里 使 用 的 仍 
然 是 简单 评估 模型 。 

Bhandarkar CAER, B(m, n) Æ m 和 nn 之 间 是 完美 对 称 的。 发 现 了 
这 个 事实 后 ， 他 研究 出 更 为 精确 的 B(m，n) 表 达 式 : 

B(m,n) = K[1- (1-1/K )'], 
式 中 , K=max(m, n); l=min(m, n)» 

可 以 使 用 这 个 表达 式 描述 一 类 典型 的 处 理 吉 的 整体 。 

例 4.2 

假设 有 一 块 双 处 理 器 的 芯片 系统 ， 使 用 共享 存储 系统 。 每 个 处 理 央 芯片 有 两 
个 核 ， 即 一 共 四 个 核 ， 共 享 一 个 4MB 二 级 缓存 。 每 个 处 理 器 在 一 个 周期 内 发 出 
3 个 访 存 请 求 ， 时 钟 频率 是 4GHz。 二 级 缓存 中 每 次 访问 的 失效 率 为 0.001。 存 储 
系统 的 平均 7 为 24ns， 包 括 总 线 延 迟 。 

可 以 根据 包含 原则 ， 忽 略 掉 一 级 缓存 的 细节 。 所 以 ， 每 个 处 理 器 芯片 每 个 周 
期 会 产生 6 x0. 001 存储 器 访问 ,或 者 每 个 周期 0. 012 个 访问 。 因 为 一 个 7 时 间 
内 有 4x24 个 周期 ， 于 是 每 个 7 时间 内 有 n=1.152 个 处 理 器 请 求 。 如 果 设 计 在 
每 个 7 内 有 m=4 个 请 求 ， 性 能 的 计算 公式 为 

B(m, n) = B(4, 1.152) =0.81 


























相关 的 性 能 为 
_B_0.8 
a 
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如 此 ， 由 于 存储 系统 的 影响 ， 处 理 需 只 能 获得 70% 潜在 性 能 值 。 为 了 取得 
更 好 的 性 能 ， 需 要 一 个 更 大 的 二 级 缓存 (或 三 级 缓存 ) 或 是 一 个 设计 更 精致 的 
存储 系统 (m=8), 


4.16.3 ”交叉 缓存 


交 义 缓存 的 处 理 方式 可 以 和 交叉 存储 器 的 方式 一 样 。 
例 4.3 
一 个 早期 的 美国 英特尔 公司 的 奔腾 处 理 器 有 8 路 交 又 数据 缓存 。 每 个 处 理 器 
周期 发 出 两 个 访问 请 求 。 绥 存 和 处 理 器 的 周期 时 间 是 一 样 的 。 
对 于 Intel 指令 集 ， 有 
Prob (每 条 指令 的 数据 访问 概率 ) =0.6. 
因为 奔腾 处 理 器 试图 在 每 个 周期 处 理 两 条 指令 ， 于 是 有 
n=l, 2, 
m =8. 
使 用 Strecker 的 模型 ， 可 以 得 到 
B(m, n) =B(8, 1.2) =1.18 
相应 的 性 能 为 
_B_1.18 
"H n 1.2 
也 就 是 说 ， 由 于 访 存 竞争 的 原因 ， 处 理 器 性 能 降低 了 2% 。 


=0.98 








4.17 总 结 





缓存 为 处 理 融 提供 了 一 个 比 单纯 的 存储 融 访 问 更 加 快速 的 访 存 方式 。 因 此 ， 
缓存 成 为 了 现代 处 理 器 的 重要 组 成 部 分 。 缓 存 失效 率 大 部 分 是 由 缓存 的 大 小 决 
定 ， 但 是 ， 任 何 评估 缓存 失效 率 的 方法 都 必须 将 缓存 的 组 织 形 式 、 操 作 系统 、 系 
统 环境 、1/0 等 因素 考虑 在 内 。 由 于 缓存 的 访问 时 间 受 到 其 大 小 的 限制 ， 多 级 组 
存 成 为 了 片上 处 理 带 设 计 的 共同 特征 。 

片上 存储 设计 看 起 来 是 相对 容易 实现 ， 尤 其 随 着 eDRAM 的 出 现 ， 但 是 片 外 
存储 设计 却 是 非常 困难 的 问题 。 首 要 的 客观 因素 是 容量 ; 然而 ， 大 的 存储 容量 和 
引 脚 的 限制 意味 着 比较 慢 的 访 存 速 度 。 即 使 芯片 访问 非常 迅速 ， 系 统 的 整体 开 
销 ， 包 括 总 线 信号 传输 、 错 误 检查 及 地 址 分 配 ， 都 会 增 大 延迟 。 

确实 ， 这 些 开 销 延 迟 的 增长 相应 地 降低 了 机 器 周期 数 。 面 对 着 上 百 的 访 存 周 
期 ， 设 计 者 可 以 使 用 大 的 多 级 缓存 来 提供 足够 的 存储 带宽 来 匹配 处 理 器 的 访 
问 率 。 
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4.18 习题 


1. 一 个 128KB 的 缓存 ， 行 大 小 为 64 位 ， 物 理 字 大 小 8 位 ，4KB 个 页 ， 四 路 
组 相 联 。 使 用 CB sk 〈 写 时 分 配 ) 和 LRU 替换 策略 。 处 理 器 生成 30 位 (一 个 字 
节 的 地 址 ) 的 虚拟 地 址 ， 转 换 成 24 位 (一 个 字 节 的 地 址 ) 的 实 字 节 地 址 (标识 
fi, Ay ~4,;3， 从 低位 到 高 位 ) 。 

(a) 哪些 地 址 位 不 受 地 址 转换 的 影响 (V=R)? 

(b) 哪些 地 址 位 用 来 寻 址 缓存 目录 ? 

(c) 哪些 地 址 位 用 来 和 缓存 目录 中 的 项 进行 对 比 ? 

(d) 哪些 地 址 位 添加 到 (b) 中 的 地 址 位 中 来 寻 址 缓存 阵列 ? 

2. 针对 习题 1 画 出 缓存 的 层级 关系 图 ， 详 细 程度 如 图 4.5 ~ 图 4.7 所 示 。 

3. 为 DTMR 缓存 (CBWA，LRU) 设计 ( 字 节 大 小 ) 计算 行 大 小 的 计算 
公式 : 

(a) 4KB 缓存 

(b) 32KB 缓存 

(c) 256KB RF 

4. 假设 将 失效 率 定 为 某 个 值 。 在 这 个 值 上 ，CB 式 缓存 (CBWA) 与 WT 式 
缓存 (WTNWA) 具有 相同 的 访问 量 。 那 么 称 这 个 值 为 跨越 点 。 

(a) 对 于 DTMR 缓存 ， 找 到 16B、32B 和 64B 行 的 跨越 点 (RX), A 
大 小 为 多 少时 ， 这 些 值 会 一 致 ? 

(b) 设计 行 大 小 对 应 缓存 大 小 的 跨越 点 。 

5. 习题 1 中 的 缓存 在 事务 环境 中 使 用 16B 大 小 的 行 (Q =20000 ) 。 

(a) 计算 有 效 的 失效 率 。 

(b) 近似 计算 ， 最 佳 的 缓存 大 小 〈 最 小 的 缓存 大 小 产生 的 最 低 可 获得 失效 
率 )? 

6. 在 一 个 两 级 的 缓存 系统 中 ， 有 

© 一 级 缓存 大 小 为 8KB， 四 路 组 相 联 ， 行 大 小 为 16B，WT 策略 〈 写 时 不 分 
配 空间 )。 

© 二 级 缓存 大 小 为 64KB ， 直 接 映射 ， 行 大 小 为 64B，CB， 式 〈 写 时 分 配 空 
间 ) 。 

假设 一 级 缓存 失效 ， 在 二 级 缓存 中 命中 延迟 为 3 个 周期 ; 一 级 缓存 失效 ， 在 
二 级 缓存 中 也 失效 的 延迟 是 10 个 周期 。 处 理 器 访 存 频率 为 1. 5 次 每 条 指令 。 

(a) 一 级 缓存 和 二 级 缓存 的 失效 率 为 多 少 ? 

(b) 由 于 缓存 失效 ，CPI 降低 多 少 ? 
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(c) 一 级 缓存 中 的 所 有 行 在 二 级 缓存 中 都 能 找到 吗 ? 为 什么 ? 

7. 一 个 特定 的 处 理 器 ， 有 两 级 缓存 。 一 级 缓存 是 4KB 直接 映射 ，WTNWA。 
二 级 缓存 是 8KB 直接 映射 ，CBWA。 两 者 都 有 16B 大 小 的 行 ， 使 用 LRU 替换 
策略 。 

(a) 二 级 缓存 能 够 包含 所 有 的 一 级 缓存 行 吗 ? 

(b) 如 果 二 级 缓存 是 8KB 的 四 路 组 相 联 (CBWA) ， 二 级 缓存 包含 所 有 的 一 
级 缓存 行 吗 ? 

(c) 如 果 一 级 缓存 是 四 路 组 相 联 映射 (CBWA) 并 且 二 级 缓存 是 直接 相连 ， 
二 级 缓存 包含 所 有 的 一 级 缓存 行 吗 ? 

8. 假设 有 如 下 的 参数 设置 ， 一 级 缓存 大 小 为 4KB ， 二 级 缓存 大 小 为 64KB 。 

缓存 失效 率 为 








4KB 每 次 访问 0. 10 次 失效 

64KB 每 次 访问 0. 02 次 失效 

1 次 访问 /指令 

3 周期 一 级 缓存 失效 ， 二 级 缓存 命中 

10 周期 一 级 缓存 失效 和 二 级 缓存 失效 总 时 间 


由 于 缓存 失效 而 导致 的 额外 的 CPL 多 少 ? 

9. 一 个 特殊 的 处 理 器 使 用 32 位 虚拟 地 址 。 地 址 空间 为 分 段 和 分 页 ， 每 个 段 
最 大 为 1MB， 每 个 页 为 512B。 在 缓存 中 读 写 交换 的 物理 字 为 4B。 

使 用 TLB， 组 织 形 式 为 组 相 联 ，128 x2。 如 果 地 址 位 标识 位 V, ~ Va DER 
WHE, R, ~ Rs 为 实地 址 ， 从 低地 址 到 高 地 址 。 

(a) 哪些 位 不 受 地 址 转换 的 影响 (UNV, =R)? 

(b) 如 果 TLB 使 用 地 址 的 低位 部 分 进行 转换 (SEMA Ar), ， 哪 些 地 址 位 用 来 
寻 址 TLB? 

(c) 哪些 虚拟 位 用 来 对 比 TLB 中 的 虚拟 项 来 决定 一 个 TLB 命中 是 否 存 在 ? 

(d) 在 最 小 的 情况 下 ， 哪 些 实地 址 位 是 由 TLB 提供 

10. 对 于 一 个 16KB 的 集成 一 级 缓存 (直接 映射 ，16B 行 大 小 ) 及 一 个 
128KB 的 集成 二 级 缓存 (两 路 组 相 联 ，16B 行 大 小 ) ， 找 出 二 级 缓存 的 单独 和 局 
部 失效 率 。 

11. 一 个 特殊 的 芯片 有 16KB 大 小 的 指令 缓存 和 16KB 大 小 的 数据 缓存 ， 都 
是 直接 上 映射。 处理 器 有 32 位 虚拟 地 址 ， 实 地 址 为 26 位 ， 使 用 4KB 大 小 页 。 指 
令 访问 频率 为 1.0 次 每 条 指令 ; 数据 访问 为 0.5 次 每 条 指令 。 缓 存 失效 延 迟 为 
10 个 周期 ， 加 上 1 个 周期 的 4B 行 转换 延迟 。 整 个 行 写 到 缓存 之 前 ， 人 处理 器 处 于 














~ 
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阻塞 状态 。D 缓存 是 CBWA 的 ; 使 用 脏 行 率 为 w = 0.5。 对 于 两 个 缓存 来 说 ， 行 
大 小 为 64B。 

(a) 由 于 指令 缓存 失效 造成 的 CPL 降低 和 由 于 数据 缓存 失效 造成 的 CPI 降 
低 为 多 少 ? 

(b) 对 于 64B 大 小 行 来 说 ， 找 出 指令 缓存 和 数据 缓存 目录 字 节 大 小 和 相应 
的 映射 区 域 。 

12. 找 出 两 个 最 新 的 DDR3 设备 的 例子 ， 针 对 这 些 设备 ， 更 新 表 4.9 和 表 4. 10 
所 示 的 数据 。 

13. 列 出 TLB 失效 之 后 必须 执行 的 所 有 的 操作 信和 号。 设计 者 该 如 何 降低 TLB 
失效 造成 的 延迟 呢 ? 

14. 在 例 4. 2 中 ,假设 需要 相对 性 能 为 0.8。 通 过 m=8 时 交叉 操作 可 以 获得 
吗 ? 

15. 更 新 表 4. 3 所 示 的 基于 NAND 闪存 的 时 序 参数 。 

16. 对 目前 的 商用 闪存 (NAND 和 NOR) 和 当前 eDRAM 的 特点 做 比较 。 


5.1 引言 


SoC 设计 一 般 包括 IP 核 的 综合 ， 其 中 每 一 个 IP 核 都 是 被 独立 设计 和 验证 的 。 
系统 综合 人 员 通 过 最 大 限度 地 估计 设计 可 重用 性 ， 来 减少 开销 并 降低 风险 。SoC 
综合 人 员 经 常 遇 到 的 问题 是 IP 核 的 互联 方法 。 

可 供 选择 SoC 互联 方式 远 远 多 于 传统 计算 机 的 总 线 。 首 先 给 出 SoC 互联 结构 
的 概述 : 总 线 和 片上 网 络 (Network on Chip，NoC ) 。 为 SoC 专门 设计 的 总 线 结 
构 将 在 下 面 介绍 和 比较 。 相 对 于 基于 总 线 的 互联 网 络 ， 基 于 交换 的 互联 网 络 具 有 
更 多 的 选择 性 。 这 里 将 不 会 考虑 点 对 点 的 或 者 全 部 自制 的 交换 互联 网 络 ， 这 些 互 
联网 络 不 适用 于 多 样 的 耳 核 。 在 SoC 互联 中 使 用 的 基于 交换 的 互联 网 络 被 称 作 
NoC 技术 。 

一 个 NoC 通常 包括 一 个 表层 的 抽象 描述 ， 向 设计 者 隐藏 了 底层 的 物理 互联 。 
那么 依照 当前 SoC 的 惯例 ， 将 互联 看 做 是 总 线 或 者 基于 交换 的 NoC。 在 NoC 中 ， 
交换 可 以 被 看 成 是 一 个 交叉 开关 ， 一 个 直接 连接 的 互联 ， 或 者 一 个 多 级 交换 网 络 。 

有 大 量 的 关于 总 线 和 计算 机 互联 的 文献 。 被 连接 在 一 起 的 单元 有 时 被 称 作 代 
H (在 总 线 中 ) 或 者 节点 (在 一 般 的 互联 文献 中 ); 本 书简 单 地 使 用 “单元 ” 
一 词 。 由 于 当前 SoC 互联 通常 包含 适当 数量 的 单元 ， 本 章 给 出 了 互联 选择 的 一 个 
简化 表示 。 对 于 片上 通信 结构 更 深入 的 解释 可 以 参见 本 书 参 考 文献 [191]。 对 
于 计算 机 互联 网 络 的 一 般 性 讨论 ， 请 看 本 书 参考 文献 [60，77] 。 






































5.2 概述 : 互联 结构 


图 5. 1 给 出 了 在 系统 环境 下 一 个 SoC 模块 的 系统 框图 。 这 个 典型 的 SoC 模块 
er SHIP 核 、 一 个 或 者 多 个 处 理 器 。 另 外 ， 各 种 类 型 的 片上 内 存 充 当 了 高 
速 缓 存 ， 数 据 存储 和 指令 存储 。 其 他 集成 在 SoC 中 的 IP 核 提 供 处 理 特定 应 用 的 
功能 ， 如 图 形 处 理 器 、 视 频 人 处理 带 和 网 络 控制 单元 。 





什么 是 NoC? 
按照 SoC 技术 的 发 展 ， 看 起 来 仅 有 两 种 互联 的 策略 : 总线 和 NoC。 那 么 ， 什 
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片上 互联 结构 
片 外 互联 结构 
处 理 器 |B > | 片上 内 存 
片 外 内 存 
Pe | > | 户外 接口 N 
= | [arr] F 
交换 器 
片 外 外 围 设备 
IP 核 F 图 IP 核 
一 片 外 ASIC 
处 理 器 |P 2| 片上 内 存 
图 5.1 在 系统 环境 下 一 个 SoC 模块 框图 








么 是 真正 的 NoC? Nurmi 教授 (在 Leibson'" 的 报告 中 提 到 ) 总 结 了 NoC 的 以 下 


特点 : 


1. NoC 不 仅 是 个 单 的 共享 的 总 线 。 
2. NoC 为 任何 通过 纵横 开关 或 者 节点 交换 连接 在 网 络 中 的 两 个 主 单元 提供 点 








对 点 的 连接 。 





3. NoC 通过 并 行 连接 提供 高 聚集 带宽 。 


4. 在 NoC 中 ,通信 和 计算 是 分 开 的 。 








5. NoC 使 用 层次 化 的 通信 方式 ， 即 使 它 由 于 复杂 和 昂贵 而 只 有 少量 的 网 络 


层次 。 








6. NoC 文 持 管道 通信 并 为 发 送 端 和 接收 端 之 间 的 立即 数据 提供 缓冲 。 

TE SoC 的 环境 下 ,设计 者 发 现 总 线 技术 不 能 提供 足够 的 带宽 和 连接 性 ， 互 联 
的 选择 明显 是 一 些 交换 开关 。 任 何 被 很 好 设计 的 交换 互联 可 以 满足 特点 2、3、4 
和 6。 点 对 点 的 交换 互联 不 满足 特点 5， 它 的 处 理 器 节点 和 交换 互联 被 特别 设计 
的 接口 所 连接 。 但 是 在 SoC 中 ， 各 种 IP 供应 商 的 点 对 点 互联 几乎 不 是 这 样 的 。 
设计 者 会 选择 一 个 与 处 理 器 节点 分 离 的 常用 的 通信 接口 〈 层 ) 。 

SoC 模块 中 的 IP 核 之 间 需 要 互相 通信 。 它 们 通过 互联 接口 单元 (Interconnect 
interface Unit , ICU) 来 实现 通信 。ICU 为 所 有 的 SoC 模块 使 用 一 个 共同 的 接口 























协议 。 
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SoC 模块 的 外 部 是 片 外 内 存 、 片 外 外 围 设 备 和 大 量 存储 设备 。 因 此 ， 系 统 的 
开销 和 性 能 取决 于 片 内 和 片 外 的 互联 结构 。 

选择 一 个 合适 的 互联 结构 需要 理解 以 下 一 系列 的 系统 级 问题 和 说 明 : 

1. 通信 带宽 ， 信 息 在 一 个 模块 和 它 所 操作 的 周围 环境 之 间 的 传播 速率 。 带 
宽 用 B/s 来 衡量 ， 通 党 一 个 模块 的 带宽 需求 需要 扩大 互联 的 类 型 ， 从 而 实现 系统 
的 总 吞吐 量 的 规格 。 

2. 通信 延迟 ， 一 个 模块 从 需要 数据 到 接收 到 数据 反馈 的 时 间 延 迟 。 延 迟 对 
整个 系统 的 性 能 来 说 ， 也 许 不 是 很 重要 。 例 如 ， 在 视频 流 应 用 中 的 长 延迟 通常 对 
观看 者 的 体验 没有 或 者 有 少量 的 影响 。 看 一 部 电影 时 ， 会 比 播放 延迟 几 秒 ， 但 这 
没有 影响 。 相 反 ， 在 移动 通信 协议 中 ， 即 使 小 的 ， 不 曾 预 料 的 延迟 也 会 造成 交流 
的 困难 。 

3. 主 设备 和 从 设备 。 这 两 个 词语 关心 的 是 一 个 单元 是 否 可 以 初始 化 或 对 通 
信 请 求 作 出 反应 。 一 个 主 设备 控制 自己 和 其 他 模块 的 之 间 事 务 ， 如 处 理 器 。 一 个 
从 设备 ， 对 来 自主 设备 的 请 求 作 出 回应 ， 如 内 存单 元 。 一 个 SoC 的 设计 通常 包含 
几 个 主 设备 和 大 量 的 从 设备 。 

4. 并 行 需求 。 独 立 的 同时 发 生 的 通信 通道 的 数量 。 通 常 ， 额 外 的 通道 可 以 
提高 系统 的 带宽 。 

5. 信息 包 和 总 线 事务 ， 在 单一 事务 中 的 信息 传播 大 小 和 定义 。 对 于 总 线 来 
说 ， 由 控制 位 ( 读 / 写 等 ) 的 地 址 和 数据 组 成 。 在 NoC 中 ， 这 个 信息 被 称 作 信息 
包 。 信 息 包 由 头 部 〈 地 址 和 控制 ) 和 数据 (有 时 被 称 作 负载 ) 组 成 。 

6. ICU。 在 一 个 互联 中 ， 这 个 单元 管理 互联 的 协议 和 物理 事务 。 它 可 以 是 简 
单 的 ， 也 可 以 是 复杂 的 。 它 能 够 支持 乱 序 的 事务 缓冲 和 管理 。 如 果 IP 核 需要 一 
个 传输 协议 去 访问 总 线 ， 这 个 单元 被 称 作 总 线 封 装 。 在 NoC 中 ， 这 个 单元 管理 
言 息 包 从 IP 核 传输 到 交换 网 络 的 协议 。 它 提供 包 缓 冲 和 乱 序 事务 传送 。 

7. 多 时 钟 域 。 不 同 的 IP 模块 可 能 在 不 同 的 时 钟 与 数据 速率 下 运转 。 例 如 ， 
一 个 视频 摄像 机 捕获 像素 数据 的 速率 由 视频 标准 决定 ， 而 它 的 处 理 器 的 时 钟 速率 
通常 由 工艺 和 结构 设计 决定 。 因 此 ， 在 SoC 中 的 IP 核 常常 需要 在 不 同 的 时 钟 频 
率 下 工作 ， 从 而 产生 了 分 离 的 时 间 区 域 ， 称 作 时 钟 域 。 如 果 设 计 不 小 心 ， 跨 时 钟 
域 会 造成 死 锁 和 同步 问题 。 

给 定 一 系列 通信 规则 ， 设 计 者 可 以 探索 不 同 互联 结构 中 带宽 、 延 时 、 并 行 性 
和 时 钟 域 需 求 的 不 同 ， 如 总 线 和 NoC。 表 5.1 给 出 了 一 些 互 联结 构 的 实例 。 其 他 
实例 还 包括 Altera FPGA 中 的 Avalon Z8''°! ， 用 于 开源 核心 和 平台 的 Wishbone 
AA! ， 以 及 FPGA 应 用 中 的 AXI4-Stream 接口 协议 中 1。 

为 SoC 设计 互联 结构 需要 仔细 考虑 许多 需求 ， 如 上 面 列 出 的 内 容 。 本 章 的 剩 
余 内 容 给 出 了 两 种 互联 结构 的 介绍 : 总 线 和 NoC。 
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表 5.1 一 些 互联 结构 的 实例 07 


































































































ROR AMB AXI( AMBA 3) CoreCon Smart Nexus 
公司 英国 ARM 公司 | 英国 ARM 公司 | 美国 IBM 公司 | 美国 Sonics 公司 | 美国 Fulcrum 公司 
核心 类 型 软 / 硬 软 / 硬 软 软 硬 
体系 结构 总 线 单 向 的 总 线 总 线 NoC 直接 应 
总 线 位 宽 8 ~1024 8 ~1024 32/64/128 16 8 ~ 128 
频率 200MHz 400MHz* |100 ~400 MHz 300MHz 1GHz 
最 大 带宽 /( GB/s) 3 6.4* 2.5 ~24 4.8 72 
最 小 延迟 /ns 5 25) 15 不 适 2 























* Æ ARM P1330 的 高 速 控制 器 中 实现 。 





5.3 BA: 基本 结构 


计算 机 系统 的 性 能 很 大 程度 上 依赖 它 的 互联 结构 的 特点 。 一 个 不 好 的 系统 总 
线 设计 可 以 截断 指令 和 数据 在 内 存 和 处 理 器 之 间 的 传输 ,或 者 在 外 围 设备 和 内 存 
之 间 的 传输 。 这 个 通信 瓶颈 被 许多 微 处 理 器 和 系统 制造 商 关 注 ， 在 过 去 的 30 年 
里 ， 它 们 采用 了 许多 总 线 标准 。 这 些 标 准 包括 最 流行 的 VME 总 线 和 Intel Multi- 
bus-I。 对 于 板 上 系统 和 个 人 计算 机 ， 总 线 的 发 展 包 括 指令 集结 构 总 线 (Instruc- 
tion Set Architecture, ISA), EISA 总 线 和 现在 的 流行 的 PCI 和 PCI Express 总 线 。 
所 有 这 些 总 线 标准 被 设计 用 于 在 印 制 电路 板 (Printed Circuit Board, PCB) 上 或 
者 在 板 上 系统 的 PCB 上 连接 集成 电路 (Integrate Circuit, IC), 

虽然 这 些 总 线 标准 用 于 计算 通信 很 好 ， 它 们 对 于 SoC 技术 却 不 是 非常 适用 。 
例如 ， 所 有 这 些 系统 级 总 线 被 设计 成 驱动 一 个 底板 ,或 者 在 机 架 系 统 或 者 在 一 个 
计算 机 的 主板 上 。 这 就 在 总 线 结构 上 强加 了 很 多 限制 。 首 先 ， 可 用 信和 号 的 数量 通 
第 被 IC 上 有 限 的 引 脚 和 PCB 连接 器 上 引 脚 的 数量 所 限制 。 向 一 个 IC 包 中 添加 
额外 的 引 脚 或 者 连接 器 开销 昂贵 。 再 者 ， 总 线 的 工作 速度 常 被 总 线 信号 的 高 负载 
容量 、 连 接 需 的 接触 电阻 和 快速 交换 信号 到 达 PCB 所 带 来 的 电磁 干扰 所 限制 。 
最 后 ， 片 上 总 线 的 驱动 需要 更 小 ， 以 节约 面积 和 功 耗 。 

在 详细 描述 总 线 操 作 和 总 线 结构 之 前 ， 表 5. 2 给 出 了 两 种 互联 结构 的 比较 ， 
显示 了 在 一 个 典型 总 线 从 设备 上 的 大 小 和 速度 。 

表 5.2 两 种 互联 结构 的 比较 





























标 准 速率 /MHz 面积 /rbe * 
AMBA (依据 实现 方式 ) 166 ~ 400 175 000 
CoreConnect 66, 133, 183 160 000 








* rbe 为 寄存 器 等 效 位 ; 评估 是 大 概 的 ， 不 同 的 实现 结果 不 同 。 
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5.3.1 仲裁 和 协议 


概念 上 ， 总 线 仅 是 被 多 个 单元 共享 的 线路 。 实 际 上 ， 必 须 提供 一 些 逻 辑 以 使 
总 线 可 以 被 有 秩序 地 使 用 ; 否则， 两 个 单元 可 能 同时 发 送信 号 ， 从 而 造成 冲突 。 
当 一 个 单元 独占 总 线 时 ， 这 个 单元 称 为 拥有 这 个 总 线 。 单 元 可 以 是 潜在 的 主 单 
元 ， 它 可 以 要 求 对 总 线 的 拥有 权 ; 也 可 以 是 从 单元 ， 它 是 被 动 的 ， 仅 可 以 对 请 求 
作出 回应 。 一 个 总 线 主 设备 是 这 样 一 种 单元 ， 它 初始 化 计算 机 总 线 的 通信 或 者 输 
和 /输出 (1/0) 通路 。 在 SoC 中 ， 一 个 总 线 主 设备 是 一 个 片上 组 件 ， 如 处 理 需 。 
其 他 单元 连接 到 片上 总 线 ， 如 IO 设备 和 内 存 组 件 ， 它 们 被 称 作 “ 从 设备 ”。 总 
线 主 设备 利用 规定 的 从 设备 地 址 控制 总 线 通路 和 信号 。 再 者 ， 总 线 主 设备 也 控制 
主 设备 和 从 设备 之 间 的 数据 流 信号 。 

一 个 叫做 仲裁 的 部 件 决定 了 总 线 的 归属 。 一 个 简单 的 实现 是 集中 式 的 仲裁 单 
元 ， 它 接收 来 自 每 一 个 潜在 的 请 求 单元 的 输入 。 通 过 总 线 协 议 ， 仲 裁 单元 将 总 线 
占有 权 授 予 其 中 一 个 请 求 单元 。 

总 线 协议 是 一 系列 经 过 协定 的 用 于 在 两 个 或 多 个 设备 通过 总 线 传输 信息 的 规 
则 。 协 议决 定 了 下 面 的 内 容 : 

© 待 发 送 数据 的 类 型 和 顺序 ; 

。 发 送 设 备 是 如 何 知 道 它 已 经 完成 了 信息 的 发 送 ; 

。 数据 的 压缩 方式 ， 如 果 有 的 话 ; 

。 接收 设备 如 何 反 馈 来 表明 已 经 成 功 接收 到 信息 ; 

。 仲裁 如 何 解 决 总 线 的 竞争 ， 按 什么 优先 级 解决 ， 以 及 错误 检测 的 类 型 使 用 。 
5.3.2 总 线 桥 

总 线 桥 是 连接 两 个 总 线 的 模块 ， 这 两 个 总 线 可 以 是 不 同类 型 的 。 一 个 典型 的 
总 线 桥 有 如 下 三 个 功能 : 

1. 如 果 两 个 总 线 使 用 不 同 的 协议 ， 总 线 桥 提供 必需 的 格式 和 标准 的 交换 。 

2. 总 线 桥 在 两 个 总 线 之 间 插 入 ， 从 而 分 割 两 个 总 线 ， 保 证 信息 运输 在 总 线 
片段 中 进行 。 这 样 就 提高 了 并 发 性 : 两 个 总 线 可 以 同时 工作 。 

3. 总 线 桥 常 包 含 内 存 缓冲 区 和 相关 联 的 控制 电路 ， 从 而 允许 写 置 人 人。 当 一 
个 总 线 上 的 主 设备 初始 化 数据 并 通过 总 线 桥 向 另 一 个 总 线 上 的 从 设备 传输 数据 
时 ， 这 个 数据 会 暂 存在 缓冲 区 ; 从 而 允许 数据 还 未 真正 写 人 到 从 设备 的 情况 下 ， 
主 设备 能 够 继续 执行 下 一 个 事务 。 通 过 人 允许 事务 的 快速 完成 ， 总 线 桥 能 够 显著 提 
高 系统 的 性 能 。 


5.3.3 物理 总 线 结 构 
总 线 事务 的 特点 取决 于 物理 总 线 的 结构 (线路 通路 的 数量 、 时 钟 周期 等 ) 
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和 协议 (特别 是 仲裁 的 支持 )。 在 任何 给 定 的 周期 内 ， 多 个 总 线 的 使 用 者 必须 通 
过 仲裁 来 访问 总 线 。 因 此 ， 仲 裁 是 总 线 事务 的 一 部 分 。 简 单 仲裁 有 一 个 请 求 周 
期 ， 在 这 个 周期 中 ， 来 自 不 同 使 用 者 的 信号 将 被 划分 优先 级 别 ， 紧 接着 是 一 个 反 
馈 接 收 周期 ， 在 这 个 周期 中 使 用 者 将 被 选择 。 更 复杂 的 仲裁 器 加 入 了 总 线 控制 线 
和 相应 的 逻辑 ， 从 而 每 一 个 使 用 者 会 知道 即将 到 来 的 总 线 状态 和 优先 级 。 在 这 种 
设计 中 ,没有 用 于 仲裁 的 周期 被 加 入 到 总 线 事务 中 。 


5.3.4 总 线 多 样 性 


总 线 可 以 是 统一 的 ， 也 可 以 是 分 离 的 〈 地 址 和 数据 ) 。 在 统一 的 总 线 中 ， 地 
址 首先 在 一 个 周期 中 被 传送 ， 紧 接着 是 一 个 或 多 个 数据 周期 ; 分 离 总 线 有 分 开 的 
总 线 完成 这 些 功 能 。 

另外 ， 总 线 可 能 是 单一 事务 的 或 者 是 被 占用 的 。 被 占用 的 总 线 仅 在 相应 的 地 
址 或 数据 周期 被 事务 占据 。 这 种 总 线 有 一 个 单元 接收 器 ， 可 以 缓冲 信息 并 产生 分 
离 的 地 址 和 数据 事务 。 

例 5.1 总 线 实例 

通过 组 合 不 同 的 物理 总 线 宽度 和 仲裁 协议 ， 可 能 产生 许多 总 线 设计 方法 。 下 
面 列 出 的 实例 具有 显著 的 可 能 性 。 假 设 总 线 有 1 个 处 理 器 周期 的 传输 延迟 ， 内 存 
(或 者 共享 缓存 ) 在 初始 化 地 址 后 有 4 个 周期 的 访 存 延迟 ， 并 且 每 一 次 连续 的 数 
据 访 存 都 需要 额外 的 周期 。 每 一 次 能 够 访问 内 存 4 个 字 节 。 待 传输 的 数据 由 16 
位 的 缓存 行 组 成 。 地 址 为 4 个 字 节 。 

其 中 ,7 表示 在 地 址 流出 之 后 访问 内 存 的 第 一 个 字 所 需 的 时 间 ，7,. access 
表示 访问 剩余 字 所 需 的 时 间 。 另 外 ， 最 后 一 个 字 节 的 数据 在 这 个 时 间 模 板 的 末尾 
到 达 ， 并 且 它 只 能 在 这 个 时 间 点 后 被 使 用 。 

(a) 简单 总 线 。 这 是 一 个 单一 事务 总 线 ， 具 有 简单 的 请 求 / 反 馈 收 到 (ack) 
仲裁 。 它 有 4 个 字 节 的 物理 位 宽 。 请 求 和 反馈 信号 是 分 离 的 ， 但 是 呈现 为 总 线 事 
务 的 两 个 部 分 ， 因 此 总 线 事务 的 延迟 是 11 个 周期 。 第 一 个 字 在 了 .的 最 后 一 个 
周期 从 内 存 发 送 ， 而 第 四 个 (和 最 后 一 个 ) 字 在 7 ,的 最 后 一 个 周期 从 内 存 
发 送 。 最 后 一 个 总 线 周期 用 于 重 置 仲裁 器 。 
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(b) 有 仲裁 支持 的 总 线 。 这 个 总 线 有 一 个 更 加 复杂 的 仲裁 器 ,但 是 仍旧 有 4 

个 字 节 的 物理 位 宽 和 集成 的 地 址 和 数据 。 对 于 将 地 址 从 总 线 缓冲 器 发 送 到 内 存 ， 
这 个 总 线 有 一 个 额外 的 访问 周期 (5 个 周期 蔡 代 4 个) 。 这 没有 在 实例 (a) 中 
显示 出 来 ， 因 为 简单 的 总 线 常常 比较 慢 ， 就 直接 将 地 址 送 入 到 内 存 中 了 。 现 在 请 
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求 和 反馈 的 初始 化 在 总 线 处 理 中 是 重要 的 ， 并 且 最 后 用 于 重 置 仲裁 器 的 周期 没有 
在 本 例 的 图 中 出 现 ， 因 此 ， 总 线 事务 现在 开销 10 个 周期 。 
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(c) 独占 的 分 离 总 线 ，4 字 节 位 宽 。 有 如 下 假设 : 数据 从 请 求 线 到 缓冲 器 和 需 
要 5 个 周期 ， 然 后 传输 需要 4 个 周期 。 事 务 延迟 同 实例 (b) 一 样 为 10 个 周期 ， 
其 中 包含 了 地 址 传输 的 周期 ， 事 务 占 据 总 线 的 时 间 少 于 延迟 的 一 半 (4 个 周期 ) 。 
地 址 总 线 只 使 用 了 10 个 周期 中 的 1 工 个 。 剩 余 的 时 间 被 用 于 其 他 不 相关 的 事务 ， 
以 提高 通信 的 性 能 。 








地 址 总 线 | 


数据 总 线 。。 二 5 个 周期 一 > 一 总 线 传输 一 一 
(d) 独占 的 分 离 ，16 个 字 节 位 宽 ，1 个 周期 总 线 事务 时 间 。 在 实例 Ce) 
中 ,事务 的 延迟 为 10 个 周期 。 因 为 内 存 显然 限制 着 系统 ， 在 这 个 实例 中 ， 在 一 
个 周期 内 传输 数据 之 前 ， 内 存 获取 整个 16 个 字 节 的 缓存 行 。 地 址 总 线 和 数据 总 
线 在 一 个 事务 中 仪 被 使 用 1 个 周期 。 需 要 指出 的 是 ， 实 例 (d) 允许 一 个 额外 的 
周期 来 重新 访问 总 线 ， 尽 管 这 可 能 不 是 必须 的 ， 并 且 在 实例 (c) 中 没有 出 现 。 
地 址 总 线 上 | 























m 





anur L 9 个 周期 

实例 (c) 和 (d) 很 有 趣 ， 因 为 总 线 的 位 宽 超 过 了 内 存 的 位 宽 ; 例如 在 
实例 (d) 中 ， 内 存在 7 个 周期 中 是 繁忙 的 (4 个 周期 用 于 访问 第 一 个 字 ，3 
个 周期 用 于 访问 剩余 的 字 ) ， 但 是 总 线 只 在 1 个 周期 中 是 繁忙 的 。 在 这 两 个 实 
例 中 ， 总 线 -内 存 的 这 种 状况 是 由 内 存 的 限制 造成 的 ， 这 就 是 竞争 产生 的 地 方 。 





5.4 SoC 总 线 标 准 


两 种 常用 的 SoC 总 线 标准 是 ARM 开发 的 高 级 微 控 制 总 线 结构 (Advanced 
Microcontroller Bus Architecture, AMBA) 和 美国 IBM 公司 开发 的 CoreConnect 总 
线 。 后 者 在 美国 Xilinx 公司 的 Virtex 平台 的 FPGA 系列 中 采用 。 


5.4.1 AMBA 总 线 


AMBA 总 线 在 1997 年 面世 ， 最 初 源 自 ARM 处 理 器 ， 它 是 工业 界 SoC 处 理 器 
中 最 为 成 功 的 一 个 。AMBA 总 线 基 于 传统 的 总 线 结构 ， 包 含 两 个 层次 。 在 AMBA 
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总 线 规定 :2 中 有 以 下 两 种 总 线 定义 : 

© 高 级 高 效 总 线 (Advanced High . performance Bus, AHB) 被 设计 用 于 连 
接 虑 入 式 的 处 理 器 ， 如 ARM 的 处 理 器 核 、 高 性 能 外 围 设备 、 直 接 内 存 存 取 (Di- 
rect Memory Access, DMA) 控制 器 、 片 上 内 存 和 接口 。 它 是 一 个 高 速 的 高 带宽 
总 线 结构 ， 使 用 分 离 的 地 址 ， 读 和 写 总 线 。 标 准 建 议 数据 操作 最 小 为 32 字 节 ， 
数据 位 宽 被 扩展 到 1024 位 。 支 持 并 发 的 多 主 / 从 设备 操作 。 它 也 支持 数据 的 突 发 
传输 模式 和 分 离 的 事务 。 所 有 在 AHB 上 的 事务 都 被 关联 在 一 个 单一 的 时 钟 沿 ， 
这 使 得 系统 级 设计 更 容易 理解 。 

© 高 级 外 围 总 线 (Advanced Peripheral Bus, APB) HE AHB 的 性 能 低 一 些 ， 
但 是 能 够 使 功 耗 降 低 到 最 优 水 平 ， 并 且 减 小 了 接口 的 复杂 程度 。 它 被 用 于 设计 接 
口 ， 以 降低 外 围 模块 的 运行 速度 。 

第 三 种 总 线 ， 叫 做 高 级 系统 总 线 (Advanced System Bus, ASB), Ex AHB 
的 前 身 ， 被 用 于 低 性 能 的 系统 设计 ， 使 用 16/32 位 的 微 控 制 器 。 当 AHB 开销 、 
性 能 和 复杂 度 不 合适 时 ， 就 会 用 到 ASB, 

AMBA 总 线 被 设计 用 于 在 SoC 综合 时 ， 产 生 一 系列 信息 的 地 址 。 这 些 信 息 来 
AF ARM 处 理 器 的 使 用 者 。 它 设计 的 目标 有 以 下 几 个 : 

1. 模块 化 设计 和 设计 的 重用 。 因 为 ARM 处 理 器 的 总 线 接口 是 非常 灵活 的 ， 
通过 使 用 特别 的 总 线 和 控制 逻辑 ， 经 验 不 丰富 的 设计 者 可 能 会 不 经 意 地 开发 出 低 
效 的 甚至 不 可 工作 的 产品 。AMBA 总 线 规格 鼓励 模块 化 的 设计 方法 ， 这 可 以 更 好 
地 支持 模块 化 的 设计 和 设计 的 重用 。 

2. 定义 良好 的 接口 协议 、 时 钟 和 重 置 。AMBA 总 线 定 义 了 一 个 低 开 销 的 总 
线 接口 和 简单 灵活 的 时 钟 结构 ，AMBA 总 线 的 性 能 被 它 的 多 主 设备 、 分 离 的 事务 
和 突 发 模式 操作 所 提高 。 

3. 低 功 耗 支持 。 与 其 他 庶 和 人 式 处 理 器 核 相 比 ， 一 个 ARM 处 理 器 吸引 人 的 地 
方 是 它 的 功 耗 效率 。AMBA 总 线 的 两 层 设 计 使 得 它 在 外 围 模块 的 能 源 效率 设计 上 
可 以 很 好 地 适应 低 功 耗 的 CPU 核 。 

4. 片上 访问 测试 。AMBA 总 线 有 一 个 可 选 的 片上 访问 测试 的 功能 ， 它 可 以 
重新 利用 基本 总 线 的 基础 设备 进行 连接 到 总 线 上 的 模块 的 测试 。 

AHB 图 5.2 给 出 了 一 个 典型 的 AMBA 总 线 系 统 。AHB 是 这 个 系统 的 主干 ， 
ARM 处 理 器 、 高 位 宽 内 存 接口 、RAM 和 DMA 设备 在 主干 的 两 侧 。AHB 和 慢 速 
的 APB 通过 一 个 总 线 桥 模块 连接 。 

AMBA AHB 协议 被 设计 用 于 实现 一 个 多 主 设备 系统 。 不 像 大 多 数 的 为 基于 
PCB 的 系统 设计 的 总 线 结 构 ，AMBA AHB 通过 采用 一 个 中 心 多 路 选择 器 的 设计 ， 
避免 了 三 态 的 实现 。 与 使 用 三 态 缓冲 器 的 方法 相 比 ， 这 种 互联 的 方法 提供 了 更 高 
的 性 能 和 更 低 的 功 耗 。 所 有 总 线 主 设备 维护 自己 的 地 址 并 且 控 制 信和 号， 以 指示 每 
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图 5.2 一 个 典型 的 AMBA 总 线 系统 [91 


个 主 设备 所 需 传输 的 类 型 。 一 个 中 心 仲裁 器 决定 哪 一 个 主 设备 拥有 到 达 所 有 从 设 
备 的 地 址 和 控制 信号 。 一 个 中 心 解码 器 电路 选择 正确 的 读数 据 然后 返回 来 自 参与 
事务 的 从 设备 的 反馈 信号 。 图 5. 3 给 出 的 三 个 主 设备 和 四 个 从 设备 的 多 路 选择 互 
联 就 是 这 样 一 个 多 路 选择 器 的 互联 设计 。 
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图 5.3 三 个 主 设备 /四 个 从 设备 的 多 路 选择 互联 





在 AHB 上 的 事务 步骤 如 下 : 

。 总 线 主 设备 获得 总 线 的 访问 权 。 这 个 过 程 以 主 设备 发 起 一 个 请 求 信 号 到 
仲裁 器 开始 。 如 果 多 于 一 个 的 主 设备 同时 请 求 对 总 线 的 控制 权 ， 仲 裁 右 决定 哪 一 
个 主 设备 被 授予 对 总 线 的 使 用 权 。 
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。 总 线 主 设备 初始 化 传输 。 被 授予 总 线 使 用 权 的 主 设备 ， 了 驱动 地 址 和 控制 
信和 号， 控制 信号 包括 地 址 、 方 向 和 传输 的 位 宽 。 它 也 会 检查 是 否 本 次 传输 是 一 个 
突 发 的 一 部 分 ， 以 适用 于 突 发 传输 的 操作 。 一 个 写 数据 总 线 操作 将 数据 从 主 设备 
移 到 从 设备 ， 而 一 个 读数 据 总 线 操作 将 数据 从 从 设备 移 到 主 设备 。 

。 总 线 从 设备 提供 反馈 。 从 设备 返回 给 主 设备 的 关于 传输 状态 的 信号 ， 如 
传输 是 否 成 功 、 是 否 需 要 延 时 或 者 是 否 有 错误 发 生 。 

图 5. 4a 给 出 了 一 个 基本 的 AHB 传输 。 一 个 AHB 传输 由 两 个 区 别 显著 的 过 
FEEL: 地 址 过 程 和 数据 过 程 。 主 设备 发 起 地 址 (ADDR) 并 在 地 址 过 程 的 时 钟 的 
上 升 沿 控制 信号 ， 这 常常 持续 一 个 周期 。 然 后 从 设备 采样 地 址 和 控制 信号 ， 并 且 
在 数据 过 程 段 ， 根 据 数据 的 读 取 (RDATA) MSA (WDATA) 操作 给 出 相应 的 
反馈 ， 以 发 送 就 续 (READY) 信号 作为 完成 的 标志 。 从 设备 通过 延迟 发 送 
(READY) 信号 ， 可 以 向 任何 传输 加 入 等 待 状态 ， 如 图 5.4b 所 示 。 对 于 一 个 写 
操作 ， 总 线 主 设备 在 整个 数据 周期 中 保持 数据 的 有 效 。 对 于 一 个 读 传 输 ， 从 设备 
不 提供 有 效 的 数据 直到 数据 过 程 段 的 最 后 一 个 周期 。 
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图 5.4 一 个 基本 的 AHB fei?) 
a) 传输 中 没有 等 待 状态 b) 传输 中 有 等 待 状态 


AHB 是 一 个 管道 式 (独占 ) 总 线 。 因 此 ， 在 前 一 个 传输 的 数据 过 程 段 ， 任 何 
传输 的 地 址 过 程 都 可 以 发 生 。 这 种 重 共 的 管道 特点 使 得 总 线 操作 具有 很 高 的 性 能 。 

APB 相 比 于 性 能 ，APB 在 最 小 功 耗 和 低 复 杂 度 上 更 具 优 点 。 它 被 用 于 低 带 
宽 的 外 围 设备 的 接口 。 

APB 的 操作 是 直接 的 ， 可 以 用 三 态 的 状态 图 来 描述 。APB 或 者 保持 空闲 状 
AS, 或 者 在 建立 状态 循环 ,或 者 处 于 数据 传输 使 能 状态 。 
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5.4.2 CoreConnect 总 线 


和 AMBA 总 线 一 样 ，IBM 的 CoreConnect 总 线 也 是 一 个 SoC 总 线 标准 。 它 被 
用 于 一 个 特别 的 处 理 器 核 一 一 PowerPC 的 外 围 设 计 ， 但 它 也 用 于 其 他 的 处 理 器 。 
CoreConnect 总 线 和 AMBA 总 线 有 相同 的 特点 : 它们 都 有 一 个 层次 化 的 总 线 ， 以 
满足 不 同 级 别 的 总 线性 能 和 复杂 度 ; 它们 都 有 高 级 总 线 的 特点 ， 如 多 主 设备 、 分 
离 的 读 / 写 端口 、 管 道 技术 、 分 离 的 事务 、 帘 发 模式 传输 和 扩展 的 总 线 位 宽 。 

CoreConnect 总 线 的 结构 提供 了 三 种 总 线 用 于 核 、 宏 单元 库 和 自制 逻辑 的 
互联 : 

o 人 处理 器 本 地 总 线 (Processor Local Bus, PLB) 

e 片上 外 围 总 线 (On-chip Peripheral Bus, OPB) 

© 设备 控制 寄存 器 (Device Control Regtster, DCR) 总 线 

图 5.5 给 出 了 一 个 典型 的 SoC CoreConnect 总 线 系统 ， 说 明了 在 SoC 中 围绕 
PowerPC 是 如 何 利 用 CoreConnect 总 线 结 构 的 。 高 性 能 、 高 带宽 块 ， 如 PowerPC 
440 CPU 核 ，PCI-X 总 线 桥 科 PC133ADDR133 (133 MHZ 总 线 的 DDR1) SDRAM 
控制 器 ,通过 PLB 被 连接 在 一 起 ，OPB 保持 外 围 的 片上 低 数 据 速 率 。 菊 花 链 
DCR 总 线 为 在 PowerPC 440 CPU 核 和 其 他 片上 模块 这 件 传 递 配置 信息 和 状态 信息 
提供 了 一 个 相对 低速 的 数据 通路 。 
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图 5.5 一 个 典型 的 SoC CoreConnect 总 线 系统 1 


PLB ”PLB 用 于 高 带宽 、 高 性 能 和 低 延 迟 的 处 理 器 、 内 存 和 DMA 控制 器 "1 
之 间 的 互联 。 它 是 完全 同步 的 分 离 事 务 的 总 线 ， 有 分 开 的 地 址 、 读 和 写 数据 总 
线 ， 人 允许 两 个 传输 每 个 时 钟 周 期 同时 传输 。 所 有 主 设备 有 它们 自己 的 地 址 、 读 数 
据 、 写 数据 和 控制 信号 ， 这 些 信 号 叫做 传输 修饰 信号 。 总 线 从 设备 也 具有 地 址 、 
读数 据 和 写 数据 总 线 ， 但 是 这 些 总 线 都 是 被 共享 的 。 

和 AMBA AHB 一 样 ，PLB 事务 有 多 个 阶段 组 成 ， 这 些 阶 段 可 能 会 持续 一 个 
或 者 多 个 时 钟 周期 ， 并 且 地 址 和 数据 总 钱 是 分 离 的 。 事 务 的 地 址 总 线 有 三 个 阶 
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Br. 请 求 (RQ). fii (XFER) 和 地 址 反馈 (ACK)。 一 个 PLB 的 事务 开始 于 
一 个 主 设备 驱动 它 的 地 址 和 传输 控制 信号 ， 并 且 请 求 在 地 址 独占 请 求 阶段 时 对 总 
线 的 占有 权 。 一 旦 PLB 仲裁 器 将 总 线 占 有 权 授 予 主 设备 ， 在 传输 阶段 ， 主 设备 
的 地 址 和 传输 信息 会 被 呈现 给 从 设备 。 在 地 址 反馈 收 到 阶段 ， 地 址 周期 在 从 设备 
锁 存 主 设备 地 址 和 传输 信息 后 结束 。 

图 5.6 给 出 了 一 个 描述 了 两 个 深度 读 和 写 地 址 的 管道 传输 和 并 发 读 和 写 数据 
时 的 独占 总 线 情况 。 主 设备 A 和 主 设备 B 代表 每 一 个 主 设备 的 地 址 和 传输 信息 
的 状态 。PLB 在 这 些 请 求 中 进行 仲裁 ， 并 将 选择 的 主 设备 的 请 求 传递 给 PLB 从 
设备 的 地 址 总 线 。 标 识 着 地 址 阶段 的 通路 展示 了 PLB 从 设备 地 址 总 线 在 每 一 个 

















PLB 时 钟 下 的 状态 。 
PLB 时 钟 
主 设 备 A REQ/XFER/ACK 




















主 设备 B RQ/XFER/ACK|| REQ/XFER/ACK 
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地 址 XFER/ACK || XFER/ACK XFER/ACK || XFER/ACK 
写 数据 XFER/ACK XFER/ACK | | XFER/ACK XFER/ACK 
~ 
读数 据 XFER/ACK XFER/ACK | | XFER/ACK XFER/ACK 

















图 5.6 一 个 PLB feti pigi 


在 数据 独占 总 线 阶 段 的 每 一 次 数据 传递 有 两 个 阶段 : 传输 和 反馈 收 到 。 在 传 
输 阶 段 ， 主 设备 驱动 写 数据 总 线 进 行 写 传输 或 者 采样 读数 据 总 线 进 行 读数 据 传 输 。 
如 图 5. 6 所 示 , 第 一 个 (或 者 只 有 一 个 ) 数据 写 传递 和 地 址 传输 阶段 同时 发 生 。 

分 离 事 务 ”PLB 地 址 、 读 数据 和 写 数 据 总 线 被 减弱 ， 以 允许 地 址 周期 被 重重 
使 用 于 读 和 写 数据 周期 ， 并 且 人 允许 读数 据 周期 被 重奏 用 于 写 数据 周期 。PLB 分 离 
总 线 事务 的 能 力 允 许 地 址 和 数据 总 线 在 同一 时 刻 有 不 同 的 主 设备 。 另 外 ， 第 二 个 
主 设备 可 能 在 另 一 个 主 设备 总 线 的 数据 传输 周期 内 ， 通 过 地 址 管道 请 求 对 PLB 
总 线 的 占有 权 。 这 种 情况 利用 图 $. 6 所 示 的 通过 各 种 信号 之 间 的 依赖 来 描述 ， 信 
号 用 箭头 表示 。 

OPB OPB 是 第 二 种 总 线 设 计 ， 它 通过 减少 PLB 的 承载 容量 !29 来 减轻 系统 性 
FEM, iF OPB 的 外 围 设备 包括 串 行 端口 、 并 行 端口 、UART、 通 用 目的 
O (General Purpose 0O，GPIO)、 计 时 器 和 其 他 低 带 宽 的 设备 。OPB 比 AMBA APB 
更 加 复杂 。 通 过 将 地 址 和 数据 总 线 设计 为 分 配 选 择 器 ， 它 支持 多 主 设备 和 从 设备 。 
这 种 结构 适用 于 数据 不 敏感 的 OPB， 并 且 人 允许 外 于 设备 加 入 到 自制 的 核心 逻辑 设 
计 中 而 不 改变 OPB 仲裁 器 或 者 已 存在 的 外 围 设备 的 VO。 图 5.7 给 出 了 一 种 OPB 
结构 ， 其 中 包括 了 地 址 和 数据 总 线 结构 。 主 设备 和 从 设备 都 为 外 出 总 线 提供 使 能 控 
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制 信号 。 通 过 要 求 每 一 个 单元 提供 这 个 信号 ， 相 关联 总 线 的 组 合 逻 辑 可 以 被 有 策略 
地 分 布 在 整个 芯片 上 。 如 图 5.7 所 示 ， 任 何 一 个 主 设备 有 向 从 设备 提供 地 址 的 能 
力 ， 然 而 主 设备 和 从 设备 都 具有 了 驱动 和 接受 分 布 式 数据 总 线 的 能 







































































































































































从 设备 单元 
Sl s1 
主 设备 单元 
S2 
= 
OR 地 址 
S3 
| 上 -一 S2 
仲裁 器 S4 
写 数据 3l 
“| oR 
一 一 一 一 S3 
S2 
2: 上 = 
S3 
OR He— M S1~S4 
一 一 读数 据 så S4 
15.7 一 种 OPB tipy 
表 5.3 给 出 了 CoreConnect 和 AMBA 总 线 标准 的 比较 。 


表 5.3 CoreConnect #1 AMBA 总 线 标准 的 比较 53] 



























































IBM CoreConnet PLB ARM AMBA 2.0 AMBA 高 性 能 总 线 
总 线 结 构 32 位 、64 位 和 128 位 ， 可 扩展 到 256 位 32 位 、64 位 和 128 位 
数据 总 线 分 离 的 读 和 写 分 离 的 读 和 写 
= deen) ERE 
aig ik EA 
主要 性 能 分 离 事务 分 离 事务 
突 发 传输 突 发 传输 
线 传输 线 传 输 
OPB AMBA APB 
主 设备 支持 支持 多 主 设备 
桥 功 能 PLB 或 OPB 上 的 主 设备 只 有 APB ERK 














数据 总 线 分 离 的 读 和 写 分 离 的 读 和 写 
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5.4.3 总 线 接口 单元 : 总 线 套 接 字 和 总 线 封装 


证 不 同 的 可 重用 的 IP 核 综合 使 用 一 个 标准 的 SoC 总 线 ， 有 一 个 重大 的 缺点 。 
因为 标准 总 线 在 线路 连接 上 定义 协议 ， 一 个 通过 一 种 总 线 标准 编译 的 IP 核 不 能 
使 用 在 用 其 他 总 线 标准 编译 的 块 中 。 解 决 这 个 问题 的 一 个 方法 是 采用 一 个 硬件 
“ 套 接 字 ”， 这 是 5.2 节 中 总 线 封装 的 一 个 例子 ， 它 通过 使 用 良好 设计 的 不 依赖 
物理 总 线 协 议 的 IP 核 协议 ， 将 互联 逻辑 和 IP 核 进行 分 离 。 因 此 ， 核 对 核 的 通信 
被 接口 封装 处 理 。 这 种 方法 被 虚拟 套 接 字 接口 联盟 (Virtual Socket Interface Alli- 
ance，VSIA)'“1 通 过 它们 的 虚拟 组 件 接口 (Virtual Component Interface, VCI) 而 
使 用 ,并且 也 被 美国 Sonics 公司 通过 采用 开源 协议 (Open Core Protocol, OCP) 
All Silicon Backplance wNetwork 所 使 用 。 

VSIA 提倡 一 系列 的 标准 和 接口 ， 被 熟知 的 是 虚拟 套 接 字 接 口 (Virtual Sock- 
et Interface，VSI) ， 它 使 得 芯片 上 系统 级 的 互动 能 够 使 用 预先 设计 好 的 模块 ( 称 
作 虚 拟 组 件 S9)'*” 1。 这 鼓励 了 使 用 组 件 范式 进行 设计 。VC 是 高 效 的 IP 模块 ， 
符合 VSI 的 规定 ， 它 们 可 以 是 三 种 类 型 中 的 一 种 。 硬 VC 由 所 有 定义 的 硅 层 上 布 
局 布线 好 的 门 组 成 。 它 的 性 能 、 面 积 和 功 耗 是 可 预测 的 ， 但 不 够 灵活 。 软 VC 被 
定义 在 硬件 描述 语言 的 表示 中 ， 它 们 通过 综合 、 布 局 和 布线 被 映射 到 物理 设计 
中 。 它 们 可 以 被 方便 地 修改 ,但 是 通常 需要 更 多 的 精力 在 SoC 设计 中 进行 综合 和 
验证 ， 同 时 它 的 性 能 可 预测 性 也 较 小 。 最 后 ， 固 件 VC 在 这 两 者 之 间 进 行 了 折 
中 。 它 们 以 发 生 器 或 部 分 布局 好 的 模块 库 的 形式 ， 通 过 要 求 最 后 的 布线 或 者 布局 
调整 来 实现 。 这 种 形式 的 VC 比 软 VC 提供 了 更 加 可 预测 的 性 能 ， 在 一 些 情况 和 
配置 下 仍旧 是 比较 灵活 的 。 

为 了 将 这 些 不 同 的 VC 连接 起 来 ，VSIA 研发 出 一 个 VCI 的 规定 ， 在 这 个 规 
定 下 其 他 合适 的 总 线 可 以 与 其 进行 接口 连接 。 根 据 VCI 的 规定 ， 设 计 者 可 以 将 
一 个 VC 和 其 他 任何 几 个 总 线 综合 使 用 ， 从 而 达到 系统 性 能 的 要 求 。VCI 标准 定 
义 了 一 系列 的 协议 。 目 前 定义 了 三 种 协议 : Yh] VCI (Peripheral VCI, PVCI), 
基本 VCI (Basic VCI, BVCI) 和 高 级 VCI (Advanced VCI, AVCI)'*7), PVCI 是 
一 个 低 性 能 协议 ， 它 的 请 求 数据 和 反馈 数据 的 传输 发 生 在 一 个 单一 控制 握手 事务 
中 。 因 此 ， 它 不 是 分 离 事 务 的 协议 。BVCI 采用 分 离 事务 的 协议 ， 但 是 反馈 必须 
按 顺 序 到 达 。 换 名 话说 ， 反 馈 数 据 必 须 和 产生 请 求 的 顺序 一 致 。AVCLI 和 BVCI 
相似 ， 但 是 允许 乱 序 的 事务 。 请 求 被 加 上 标签 ， 并 且 事 务 可 以 交叉 进行 和 重新 
排序 。 

另外 ，VSIA 也 定义 了 一 些 抽 象 层 表示 ， 用 于 将 VC 集成 到 SoC wp, 
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这 样 做 的 思想 是 ， 如 果 IP 模块 提供 者 (VC 提供 者 ) 和 系统 综合 者 (VC 综合 
者 ) 符合 VSI 在 所 有 抽象 层 的 规定 ， 那 么 使 用 IP 组 件 范式 的 SoC 设计 就 可 以 在 
较 低 错误 风险 下 进行 。 

相对 于 VCI 的 另 一 个 选择 是 OCP， 它 被 国际 开源 协议 组 织 (Open Core Proto- 
col International Partnership, OCP-IP) 所 推荐 "8 。OCP 在 两 个 通信 的 实体 之 间 定 
义 了 一 个 点 对 点 的 接口 ， 如 在 两 个 IP 核 之 间 使 用 核 中 央 协 议 。 使 用 OCP 的 接口 
假定 具有 套 接 字 的 属性 ， 如 之 前 所 说 的 ， 它 是 一 个 高 效 的 总 线 封装 ， 人 允许 对 目标 
总 线 进行 接口 连接 。 图 5. 8 给 出 了 一 个 使 用 OCP 和 总 线 封 装 的 三 IP 核 模块 系 
统 。 一 个 模块 是 系统 初始 化 器 ， 一 个 是 系统 目标 ， 另 一 个 既是 初始 化 器 也 是 
目标 。 






























































































































































系统 初始 化 器 (ERE ) 初始 化 器 或 目标 目标 (从 设备 ) 

IP IP IP 
主 设备 主 设备 | | 从 设备 从 设备 

I I I 
J 一 一 二 7 5 | J- 一 二 + 一 OCP 
Y 1 了 了 
从 设备 模块 主 设备 模块 

总 线 初始 化 器 ( 主 设备 ) 两 者 总 线 目标 

片上 总 线 
总 线 接口 封装 模块 


图 5.8 一 个 使 用 OCP 和 总 线 封装 的 三 IP 核 模 块 系统 3] 





另 一 个 互联 层次 可 以 在 OCP 的 基础 上 进行 ,从 而 有 助 于 进行 更 深入 的 IP 综 
Ao Sonics AFTER ENS A AY SiliconBackplance 协议 ， 这 个 协议 无 颖 地 将 使 用 
OCP 的 卫 模块 连接 起 来 。 不 同 模块 之 间 的 通信 在 Silicon Backplane wNetwork 上 进 
行 ， 这 个 wwNetwork 具有 可 扩展 的 50 ~ 4000 MB/s 的 带宽 。 图 5.9 给 出 了 美国 
Sonics 公司 的 wNetwork 配置 ， 说 明了 组 件 是 如 何 连接 在 一 起 的 225 。 

使 用 封装 技术 的 总 线 接口 单元 已 经 说 明了 如 何 减少 设计 SoC 的 时 间 ， 但 是 它 
是 建立 在 开销 门 资 源 和 延迟 的 基础 上 的 。 加 入 简单 的 封装 硬件 会 增加 存 取 的 延 
时 ， 并 且 会 导致 3 ~5K 个 门 的 硬件 开销 0 。 

另外 ， 总 线 接 口 单元 可 以 使 用 FIFO 缓冲 器 来 提高 性 能 。 图 5. 10 给 出 了 在 总 
线 接 口 单元 采用 写 数据 缓冲 器 所 带 来 的 便 件 开销 和 性 能 的 提升 。 

写 缓冲 器 提供 了 几 个 周期 的 延迟 优化 和 10% 的 吞吐 量 增加 ， 延 迟 取决 于 数 
据 的 大 小 。 
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图 5.9 美国 Sonics 公司 的 wNetwork 配置 !2251 
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图 5.10 ”在 总 线 接口 单元 采用 写 数据 缓冲 器 所 带 来 的 硬件 开销 和 性 能 的 提升 六 
a) 写 缓冲 器 的 硬件 开销 b) 缓冲 器 对 突 发 模式 传输 的 性 能 影 效 
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5.5 总 线 模型 分 析 





两 个 或 多 个 单元 同时 请 求 一 个 不 能 被 提供 的 共享 的 资源 时 ， 就 发 生 了 竞争 。 
竞争 发 生 时 ， 有 两 种 处 理 方式 : (1) 延迟 请 求 并 置 为 空闲 状态 直到 资源 可 用 ; 
(2) 在 一 个 缓冲 中 对 请 求 进行 排队 直到 资源 可 用 时 再 开始 运行 。 方 式 (2) 只 在 
请 求 的 资源 对 于 程序 运行 不 是 逻辑 上 必须 的 情况 下 发 生 〈 如 缓存 的 预 取 ) 。 

是 否 需 要 分 析 总 线 的 欧 争 取决 于 总 线 的 最 大 (或 提供 的 ) 带宽 和 内 存 带宽 
的 关系 。 区 争 和 排队 是 系统 的 瓶颈 ， 因 此 ， 最 被 限制 的 资源 是 具有 欧 争 性 的 资源 
和 系统 的 延迟 部 分 资源 。 因 此 ， 当 总 线 比 内 存 受到 更 大 限制 时 (具有 较 小 的 可 
用 带宽 ) ， 总 线 必须 进行 竞争 分 析 。 

总 线 常 没 有 缓冲 〈 队 列 ) ， 存 取 延 时 导致 系统 变 慢 。 总 线 阻 塞 的 影响 分 析 取 
决 于 存 取 类 型 和 缓冲 技术 。 

通常 有 以 下 两 种 类 型 的 存 取 模式 : 

1. 没有 立即 重新 提交 的 请 求 。 被 拒绝 的 请 求 返回 和 原始 请 求 一 样 的 到 达 分 
配 。 一 旦 请 求 被 拒绝 ， 程 序 继续 执行 ， 尽 管 重新 提交 请 求 会 产生 延迟 。 缓 存 行 的 
预 取 就 是 这 样 一 个 例子 ， 它 不 被 当前 程序 的 继续 执行 所 需要 。 

2. 立即 重新 提交 的 请 求 。 当 多 个 独立 的 处 理 器 存 取 一 个 共同 的 总 线 时 ， 这 
是 更 加 典型 的 例子 。 程 序 不 能 在 一 个 请 求 被 拒绝 后 继续 执行 。 被 拒绝 的 请 求 会 立 
即 重新 提交 。 处 理 咒 处 于 闲置 状态 直到 请 求 被 接受 并 执行 。 


5.5.2 简单 的 总 线 模型 : 没有 重新 提交 
下 面 ， 假 定 每 一 个 请 求 占 据 总 线 相同 的 服务 时 间 CBD 7 )。 即 使 有 两 
个 不 同类 型 的 总 线 使 用 者 ( 即 ， 单 线 上 的 字 请 求 和 线 请 求 或 [ 脏 ] 双 线 上 的 请 


求 )， 大 多 数 情 况 可 以 通过 简单 的 计算 每 一 个 处 理 器 的 平均 总 线 占 有 率 p 来 合理 
地 佑 计 ， 公式 如 下 : 














总 线 传输 时 间 
A“ 处理 器 处 理 时 间 + 总 线 传输 时 间 
处 理 器 时 间 是 处 理 器 在 处 理 一 个 总 线 请 求 之 前 的 所 需 计 算 的 平均 时 间 。 当 
然 ， 处 理 器 可 能 将 一 些 计算 时 间 与 总 线 时 间 重 蕉 。 在 这 种 情况 下 ， 处 理 器 时 间 是 
总 线 请 求 之 间 不 重 释 的 时 间 。 任 何 情况 下 , p<1。 
n 个 处 理 器 访问 总 线 的 最 简单 模型 如 下 
Prob( 处 理 器 不 访问 总 线 的 概率 ) =1 -p 
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Prob( 总 线 忙 的 概率 ) = (1 -p)" 
= 宽带 的 分 数 形 式 =B(p,n) 
带宽 的 分 数 形式 乘 以 最 大 总 线 带宽 ， 得 到 实现 的 总 线 带宽 Bw。 
每 个 处 理 器 的 实现 带宽 的 分 数 形式 (实现 的 占有 率 ) p, 由 如 下 公式 给 出 : 
np, =B(p, n) 
_B(p, n) 





Pa 
由 于 总 线 阻塞 ， AD SH AE A He 为 p,/p。 
5.5.3 重新 提交 的 总 线 模型 


支持 请 求 重新 提交 的 模型 需要 更 加 复杂 的 分 析 和 反复 的 解决 办 法 。 这 里 有 几 
个 解决 方法 ， 每 个 方法 都 产生 相似 的 结构 。 被 Hwang 和 Briggs ”提出 的 解决 方 
法 是 对 下 面 一 对 方程 的 反复 迭代 : 

















a- p 
p+(p,/p) (1 -p) 
和 
np, =1-(1-a)" 
AF, a 为 实际 提供 的 请 求 率 。 为 了 得 到 po.， 初 始 化 时 以 a =p EDERE R. 
一 般 四 次 迭代 后 会 收敛 。 


5.5.4 使 用 总 线 模型 : 计算 给 定 的 占有 率 


在 执行 部 分 中 的 模型 在 事务 类 型 中 没有 区 分 。 它 仅 要 求 总 线 事 务 的 平均 时 
间 ， 这 个 时 间 是 总 线 处 理事 务 所 用 的 平均 周期 数 。 下 一 个 问题 是 找到 给 出 的 占有 
率 p。 

给 出 的 占有 率 是 在 事务 之 间 没 有 竞争 的 情况 下 总 线 繁忙 时 间 的 分 数 部 分 。 为 
了 找到 这 个 分 数 部 分 ， 需 要 决定 总 线 事务 的 平均 时 间 和 事务 之 间 的 计算 时 间 。 

处 理 器 初始 化 事务 的 自然 性 是 另 一 个 影响 因素 。 简 单 的 处 理 器 产生 阻塞 事务 。 
在 这 种 情况 下 ， 处 理 吉 在 总 线 请 求 产 生 之 后 处 于 空闲 状态 ， 并 且 仅 在 总 线 事务 完成 
后 重新 开始 计算 。 对 于 更 加 复杂 的 人 处理 絮 的 一 个 选择 是 缓冲 的 (或 者 没有 阻塞 的 ) 
事务 。 在 这 种 情况 下 ， 处 理 右 在 作出 一 个 请 求 后 继续 进行 工作 ， 并 且 确 实 可 能 在 完 
成 初始 的 请 求 之 前 产生 几 个 请 求 。 根 据 系统 的 配置 ， 有 两 种 常见 的 情况 : 

1. 具有 阻塞 事务 的 单一 总 线 主 设备 。 在 这 个 例子 中 ,没有 总 线 竞争 ， 因 此 处 理 
器 会 等 待 事务 的 完成 。 这 里 ， 实 现 的 占有 率 p, 与 给 出 的 占有 率 相 同 ， 并 且 p =p, = 
(总 线 事务 时 间 ) / (计算 时 间 + 总线 事务 时 间 ) 。 

2. 具有 阻塞 事务 的 多 总 线 主 设备 。 在 这 个 例子 中 ， 给 出 的 占有 率 是 np, p 
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是 情况 1 中 的 p。 现 在 会 发 生 竞 争 ， 因 此 使 用 总 线 模型 去 决定 实现 的 占有 率 p。。 

例 5.2 

假设 一 个 处 理 器 有 由 缓存 行 传输 组 成 的 总 线 事务 。 假 定 80% 的 事务 移动 单 
行 并 且 占 据 总 线 20 个 周期 , 20% 的 事务 移动 双 行 (如 脏 行 蔡 换 ) 并 占据 总 线 36 
个 周期 。 总 线 事务 的 平均 时 间 是 23. 2 个 周期 。 现 在 假设 ， 每 200 个 周期 发 生 一 
次 缓冲 未 命中 (事务) 。 

在 情况 1 中 ， 总 线 被 占用 : p =p, =23.2/223.2 = 0.10。 这 里 没有 竞争 ， 但 
是 总 线 造 成 系统 速度 变 慢 ， 这 在 下 面 会 讨论 到 。 

在 情况 2 中 ,假设 有 四 个 处 理 器 。 现 在 给 出 的 占有 率 是 p =0. 104 并 且 用 模型 
去 计算 竞争 时 间 。 开 始 时 设置 a =p =0.104, np, =1 -(1-a)" =1 -(1 -0.104)'; 
现在 得 到 了 p,， 然 后 用 p, 替代 a 并 继续 。 

因此 ， 开 始 时 ，p, =0. 089; 下 一 次 迭代 后 ，p, =0.010; 然后 经 过 几 次 迭代 
后 ，p, =0. 095。 总 是 得 到 比 给 出 的 小 的 值 , 产生 这 种 不 同 是 由 竞争 带 来 的 延迟 
造成 的 。 因 此 有 


ee 总 线 传输 时 间 


计算 时 间 + 总 线 传 输 时 间 + 竞争 时 间 
计算 竞争 时 间 ， 得 到 的 结果 是 21 个 周期 。 
5.5.5 ”总线 事务 的 影响 和 竞争 时 间 

总 线 延 迟 对 于 整个 系统 的 性 能 的 影响 有 两 个 方面 : 第 一 个 显然 是 阻塞 ， 它 简 
单 地 将 事务 延迟 插 人 到 程序 的 执行 过 程 中 ; 第 二 个 影响 是 竞争 ， 它 降低 了 事务 在 
总 线 和 内 存 上 流通 的 速率 。 这 多 少 降低 了 系统 的 性 能 。 

在 阻塞 的 情况 下 ， 处 理 器 因为 总 线 事务 数 量 较 多 而 变 慢 。 因 此 ， 与 没有 总 线 
事务 的 理想 处 理 需 相 比 ， 其 相对 性 能 ; 

Eee — 计算 时 间 
相对 性 能 = E + KARAER 

在 情况 1 中 ， 处 理 需 变 慢 ， 为 之 前 的 200/223. 3 = 0. 896, 

当 出 现 竞争 是 ， 会 增加 额外 的 延迟 。 在 情况 2 中 ， 单 个 处 理 需 变 慢 为 之 前 的 
200/ (223. 2 +21) =0. 819。 竞争 导致 的 系统 (没有 竞争 ) 变 慢 以 比率 p,/p KR 
示 。 由 于 这 个 比率 ， 将 减少 提供 的 事务 。 


5.6 超越 总 线 : 拥有 交换 互联 的 NoC 
虽然 总 线 互联 在 SoC 互联 结构 中 占 主导 地 位 ， 它 仍 具 有 很 多 缺点 。 即 使 一 个 


设计 很 好 的 基于 总 线 的 系统 ， 也 可 能 过 到 数据 传输 的 瓶 贷 ， 也 就 限制 了 整个 系统 
的 性 能 。 它 也 不 具备 可 升级 性 。 当 越 多 的 模块 被 添加 到 总 线 时 ， 不 仅 数据 阻塞 增 
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加 ， 而 且 功 耗 也 会 由 于 总 线 电 路 增加 的 负载 而 增加 。 基 于 交换 的 NoC 互联 避免 
了 一 些 这 样 的 限制 。 然 而 ， 交 换 器 天 生 比 总 线 要 复杂 ， 这 在 大 型 SoC 配置 中 更 有 
用 。 交 换 设计 中 有 很 大 权衡 的 可 能 。 大 量 节点 可 以 用 相对 较 小 的 延迟 互联 起 来 ; 
但 是 在 开销 以 指数 增加 的 基础 上 ( 像 交叉 开关 ) ， 也 可 用 相对 较 大 的 延 时 互联 起 
来 ， 这 时 开销 较 小 (如 分 布 式 互联 )。 

本 节 介 绍 了 一 些 基本 的 概念 和 物理 互联 网 络 设计 的 一 些 方法 选择 。 这 个 网 络 
由 配置 的 交换 器 组 成 ， 它 将 NN 个 单元 连接 起 来 。 互 联网 络 设计 的 效率 或 者 费用 - 
性 能 高 低 由 以 下 内 容 决定 ， 

1. 将 一 个 请 求 单元 与 它 的 目的 单元 连接 起 来 的 延迟 。 

2. 单元 之 间 的 带宽 和 连接 的 并 发 数量 。 

3. 互联 网 络 的 开销 。 

在 一 个 网 络 中 ， 单元 之 间 通 过 链 路 或 he 节点 分 列 f) 
者 通道 来 通信 ， 通 信 方 式 可 以 是 单 向 的 也 sce 
可 以 是 双向 的 。 链 路 具有 带宽 或 每 个 单元 
时 间 的 传输 字 节 数 ， 从 而 能 够 在 单元 ( 节 | 处理 器 内 存 VN sae ee 
点 ) 之 间 并 行 地 进行 传输 。 一 个 节点 的 分 a 
列 数 是 连接 到 邻近 节点 的 双向 通道 的 数量 
( 见 图 $. 11), 

网 络 可 以 是 静态 的 或 是 动态 的 。 在 图 5.11 节点 和 通道 (节点 的 分 列 数 是 
一 个 静态 网 络 中 ， 拓 扑 结构 或 者 节点 之 连接 到 邻近 节点 的 通道 数量 ) 
间 的 关系 是 固定 的 〈 见 图 5.12)。 两 个 节点 之 间 的 通路 不 会 改变 。 在 一 个 动态 网 络 
中 ， 可 以 选择 节点 之 间 的 通路 ， 以 实现 连接 性 和 提高 网 络 的 带宽 〈 见 图 5. 13)。 
































节点 通道 节点 









































































































































处 理 器 处 理 器 
内 存 内 存 
处 理 器 
交换 器 BRE a 
| | = 
T 交换 器 
交换 器 交换 器 id 
处 理 器 
内 存 
图 5.12 事态 网 络 (单元 之 间 图 5.13 动态 网 络 (单元 之 间 的 





的 连接 是 固定 的 ) 连接 多 变 ， 形 成 连接 ) 
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静态 网 络 可 以 包含 一 个 二 维 网 格 的 
交换 器 ， 从 而 将 SoC 的 模块 连接 起 来 。 = a 


动态 网 络 可 以 由 一 个 中 心 交叉 开关 构 
成 。 除 了 可 以 避免 传输 阻塞 的 优点 之 xI 





























外 ， 基 于 交换 的 设计 可 以 允许 模块 在 不 ii 
同 的 时 钟 频率 下 工作 ， 并 且 可 以 减轻 总 


内 存 


























线 负载 问题 。 A 
图 5.14 给 出 了 基于 交换 的 互联 ， 


它 将 同一 芯片 本 地 的 一 些 同 步 模块 连接 1O IO 
在 一 起 '“] 。 这 个 交叉 开关 是 完全 异步 
的 。 在 芯片 中 ， 时 钟 域 交 换 需 被 用 于 向 图 5. 14 ”基于 交换 的 互联 
同步 模块 桥接 异步 互联 。 
SoC 互联 交换 

本 节 对 来 自 计算 机 互联 文献 中 一 些 基 本 概念 和 结果 进行 总 结 。 在 SoC 交换 
中 ， 目 前 节点 (单元 ) 由 于 模具 大 小 被 限制 在 16 ~ 64 个 。 由 于 单元 在 片上 ， 连 
接 带 宽 w 相对 比较 大 : 16 ~ 128 条 线 。 在 SoC 中 ， 目 前 动态 网 络 占据 主导 地 位 
(纵横 开关 或 者 多 级 连接 ) ; 使 用 的 静态 网 络 为 网 格 状 ( 环 面 )。 随 着 SoC 单元 数 
的 增加 ， 期 望 可 以 实现 更 加 多 样 的 互联 网 络 。 


5.6.1 静态 网 络 


在 静态 网 络 中 ， 两 个 单元 之 间 的 距离 是 为 了 建立 它们 之 间 的 通信 必须 要 通过 
的 链 路 或 通道 (或 跳 ) 的 最 小 数量 。 网 络 的 直径 是 两 个 任意 网 络 单元 之 间 的 最 
大 距离 (没有 重复 通路 ) 。 一 个 静态 网 络 的 线形 网 络 如 图 5. 15a 所 示 。 网 络 可 以 
是 开放 的 ， 也 可 以 是 自 闭 的 。 一 个 自 闭 的 网 络 通过 将 一 个 线形 阵列 交换 为 环 ， 提 
高 了 平均 距离 和 直径 ( 见 图 5.15b)。 最 常见 的 静态 网 络 类 型 是 (k, d) 网 
络 ' 中 。 这 是 由 维 数 为 4， 节 点 数 为 的 阵列 重 构 形 成 的 。 这 种 网 络 常 是 自 闭 的 ， 
如 环 ， 它 的 d=1 ; 如 网 ， 它 的 d=2。 

假定 在 一 个 线形 阵列 中 有 个 节点 ,希望 去 扩展 网 络 。 可 以 增加 网 络 的 维 
数 ， 产 生 一 个 二 维 的 网 格 网 络 ， 其 中 d=2 ( 见 图 5.15c)， 而 不 是 简单 地 增加 线 
形 元 素数 量 。 这 种 (k, d) 网 络 可 以 是 ， 线 形 阵列 ，d =1; 二 维 网 格 ，d = 2; 
立方 阵列 ，d =3; 或 超 立 方 体 。 超 立方 体 结构 常 将 每 维 的 元 素数 量 限制 在 两 个 ， 
即 =2, 使 用 尽 可 能 多 的 维 来 包含 整个 网 络 。 高 维 网 络 提高 了 连接 性 ， 但 是 增加 
了 连接 交换 的 费用 。 在 每 一 个 最 邻近 的 单元 之 间 必 须 有 一 个 交换 器 , 在 (k, d) 
网 络 中 通常 有 2d 个 邻 紧 单元 。 图 5. 15d 给 出 了 一 个 环 ， 常 被 称 作 最 邻近 单元 的 
网 状 阵列 。 
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图 5.15 没有 预选 位 置 的 静态 网 络 例子 














(这 些 也 被 称 作 ( 有 ,qd) 网络 。 在 图 a 和 bb 中 , &k=4, d=1 (E); 在 图 ce 和 dd 中， 
今 k=3, d= 2) a) 线形 阵列 b) 含有 闭 包 的 线形 阵列 ( 环 ) 
c) 网 格 (二 维 网 ) d) 包含 闭 包 的 xk 网 格 (二 维 网 ) 


寺 别 的 ， 在 二 元 立方 体 结构 或 者 超 立 方 体 结构 中 , 上 =2。 超 立方 体 的 节点 数 
N 和 维 数 按 如 下 方法 决定 : 对 于 (2, n) 网 络 ， 有 双向 通道 的 二 元 n 方 体 有 




















N=2" 
对 于 (2, n) 情况 ， 有 
直径 =n 
对 于 一 般 的 具有 n 维 ， 闭 包 和 双向 通道 的 (k, n) 网 络 ， 有 
N =k" 
或 者 
n = log, N 
和 








直径 = [E+ |p 


例 5.3 假设 有 一 个 4x4 的 网 格 (图 5.15d 所 示 的 环 ) 。 按 (k, d) RUE 
是 一 个 (4，2) 网 络 ，V=16, n =2， 并 且 维 数 为 4。 
通常 ， 网 络 的 维 数 和 它 最 大 的 距离 对 于 开销 和 性 能 是 重要 的 。 表 5.4 显示 了 
一 些 关 于 64 节点 (N=64) 静态 (k, d) 网 络 开 销 和 性 能 的 比较 。 
表 5.4 一 些 关 于 64 节点 (N=64) 静态 (k, d) 网 络 开销 和 性 能 的 比较 
IK (64, 1) | 网 格 (16, 2) | 立方 体 (4，3)| 超 立 方 体 (2, 4) 




















性 能 


跳 数 (IY, dk/4) 16 8 3 2 
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( 续 ) 
IR (64, 1) | 网 格 (16, 2) | 立方 体 (4, 3)| 超 立 方 体 (2, 4) 
径 ( 跳 数 ) (最 大 内 部 节点 
和 oe BI 45 ié š i 
开销 
节点 分 列 (mH), 2d 2 4 6 8 
双向 BW, 2 wN/k 32 128 512 1024 














注 : 链 路 (和 端口 ) 是 双向 的 ， 有 16 条 线 (zw =16), BW Cee: Bisection bandwidth) 指 当 网 
络 被 分 为 两 个 相同 的 部 分 时 ， 被 分 为 两 段 的 信号 线 的 量 

链 路 有 以 下 三 个 特性 : 

1. 链 路 的 周期 时 间 7 。 它 指 信 息 在 邻近 节点 传播 的 时 间 。1/7, 是 链 路 或 通 
道 的 线路 带宽 。 

2. 链 路 的 位 宽 w。 它 决定 在 两 个 节点 之 间 能 够 被 同时 传输 的 位 的 数量 。 

3. 不 区 分 链 路 是 单 向 的 还 是 双向 的 。 

与 链 路 特性 符号 相 联 的 是 信息 的 位 长 度 1 加 上 五 位 尖 部 。 这 个 头 部 仅 是 目标 
节点 的 地 址 。 因 此 ，7T, x (1 +H) /w 是 在 两 个 邻接 单元 之 间 传 输 一 条 信息 的 
时 间 。 

假设 节点 A 有 一 个 发 送 到 节点 C 的 信息 ， 该 信息 必须 通过 节点 B 进行 传递 。 
如 果 节 点 B 是 可 用 的 ， 这 条 信息 首先 从 A 传输 到 B， 然 后 在 B 保存 。 在 信息 被 
完全 传输 后 ， Wak BUA C, MERTE CALA, 则 将 该 信息 传递 给 节点 C。 
与 其 将 信息 存储 在 节点 B， 还 可 以 用 虫 孔 路 由 ' 9 的 方法 。 当 信息 在 节点 B 被 接 
收 后 ， 信 息 仅 被 暂 存 足够 用 于 解码 头 部 和 决定 目的 地 长 度 。 一 旦 目的 地 被 决定 ， 
这 条 信息 会 被 重新 传输 到 节点 C， 前 提 是 节点 C 是 可 用 的 。 在 节点 B 所 需要 的 组 
冲 空间 会 大 幅度 缩减 ， 并 且 传输 的 总 时 间 为 

T =T, ,(dxh +l/w) 


wormhole ch 























AP, h= [Bo]。 

例 5.4 在 一 个 4x4 网 格 ，(k, d) = (4, 2), 并 目 假 定 7,=1, k=1, l= 
256, w=64, W Toome = (2+4) 个 周期 =6 个 周期 。 

一 且 头 部 在 一 个 中 间 的 节点 被 解码 ， 这 个 节点 可 以 决定 这 个 信息 是 要 向 那个 
节点 发 送 的 。 这 个 中 间 节 点 选择 一 个 到 目的 节点 最 小 距离 的 通路 。 如 果 多 个 通路 
具有 相同 的 长 度 ， 则 中 间 节 点 会 选择 当前 不 阻塞 或 可 用 的 那个 通路 。 


5.6.2 动态 网 络 


一 个 基本 的 动态 间接 交换 网 络 如 图 5. 16 所 示 。 
一 般 而 言 ， 动 态 网 络 中 的 基本 元 素 是 交叉 开关 ( 见 图 5. 17)。 
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处 理 器 
内 存 
处 理 器 
交换 器 
内 存 
处 理 器 
内 存 
a) 
处 理 器 | —| | 一 一 处 理 器 
内 存 上 | |__| 内 存 
源 请 求 交换 器 目的 节点 
处 理 器 | -一 上 一 一 | 处 理 器 
内 存 | — |__| 内 存 


























b) 


图 5. 16 一 个 基本 的 动态 间接 交换 网 络 
a) 一 个 集中 式 的 交换 网 络 ( 它 与 处 理 器 分 离 ) b) 一 个 分 布 程度 更 大 的 网 络 











c=0 




















a) 


























b) 


图 5.17 交叉 开关 
a) 一 个 2 x2 的 具有 控制 信号 < 的 交叉 开关 b) 它 可 以 生成 xk 的 交叉 开关 




















交叉 开关 将 下 个 点 与 另外 天 个 点 相连 接 。 只 要 任意 两 条 信息 没有 相同 的 目的 
地 ， 多 个 信息 就 可 以 并 行 地 穿 过 交叉 开关 。 交 叉 开 关 的 费用 以 产 的 形式 增长 ， 
因此 对 于 大 网 络 ， 使 用 交叉 开关 费用 过 高 。 为 了 控制 交换 器 的 开销 ， 可 以 使 用 一 
个 小 的 交叉 开关 作为 多 级 网 络 的 基础 ， 这 种 方法 常 被 称 为 多 级 互联 网 络 ( Mullti- 


stage Interconnection Network, MIN) [2361 
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有 很 多 种 类 的 MIN ， 包 括 基线 、Benes 、Clos 、0megal5l 和 Banyan 网 络 。 基 
线 网 络 是 最 简单 的 ， 如 图 5. 18 所 示 。 
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000 000 
001 一 一 pt IL— 001 
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011 — 1 -| on 
100 一 一 100 
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111 — [一 111 
































图 $. 18 基线 动态 网 络 拓扑 结构 


头 部 信息 可 以 引起 连续 级 的 交换 ， 从 而 正确 的 连接 通路 可 以 在 两 个 节点 之 间 
建立 。 例 如 ， 考 虑 一 个 有 MM，N 网 络 的 确定 的 布线 算法 。 假 定 节 点 011 向 目的 节点 
110 发 送 一 条 信息 。 交 换 器 从 1、1 和 0 输出 ， 从 而 使 信息 达到 110 目的 节点 ， 通 
过 设置 控制 信号 c， 无 论 上 部 的 “0” 或 者 底部 的 “1”， 都 可 以 被 交换 器 选择 。 
相似 的 ， 返 回 通路 是 011 。 两 个 节点 之 间 的 阶段 数 为 

阶 数 = [ log, N] 
式 中 , 天 为 到 达 交 叉 开 关 元 素 (kxk) 的 输入 数量 。 因 此 ， 一 位 宽度 的 通路 所 需 
WK) (kxk) 交换 器 的 总 数 为 





A x [log,N] 


其 他 动态 网 络 在 信息 带宽 的 实现 ,信息 延迟 和 容错 方面 做 出 了 不 同 的 权衡 。 
表 5.5 给 出 了 一 些 常见 动态 网 络 的 特点 。 


R55 一 些 常见 动态 网 络 的 特点 (使 用 xh 交换 器 交换 N 输入 xN 输出 ) 





























延迟 阶段 (单元 中 的 开销 估计 
网 络 | 其 他 等 价 的 网 络 ‘i Æ ehh DE 
CEE A apse) Bi pees 

Delta, Omega, ae N 

Baseline m a [ log, N] 有 阻塞 cal log, N] 

bas = 2[log,N] -1 如 果 配 置 好 ， 不 会 阻塞 | ANT tog] 
is 4N 

Clos = 2[log, N] -1 完全 不 阻塞 LlogeN] 
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5.7 一 些 NoC 交换 的 例子 


5.7.1 直接 网 络 的 一 个 二 维 网 格 的 实例 


通过 将 用 户 的 了 P 核 用 直接 互联 网 络 连 接 起 来 ， 数 据 传输 被 分 布 在 整个 NoC 
中 。 数 据 传输 的 瓶颈 被 避免 ， 因 为 在 节点 之 间 有 很 多 条 通路 ， 并 且 数 据 传 输 可 以 
同时 进行 。Xfabric 方式 利用 一 个 二 维 网 格 直接 网 络 ， 将 用 户 的 核心 在 Xilinx FP- 
GA 上 连接 起 来 ， 如 网 5.190 所 示 。 拥 有 一 个 到 四 个 通信 端口 的 数据 处 理 核 通 
过 一 个 交换 组 件 网 络 被 连接 起 来 (图 中 灰色 部 分 ) 。 这 些 数 据 路 由 连接 自主 地 管 
理 了 系统 多 个 用 户 核 之 间 的 数据 流 。 多 个 连接 的 实例 组 成 了 直接 二 维 网 格 网 络 ， 
它 可 以 互联 1024 个 单 端口 核心 。 在 交换 组 件 之 间 的 水 平和 垂直 数据 传输 链 路 使 
得 核 之 间 的 数据 通信 更 加 高 效 。 



























































图 5.19 通过 交换 组 件 以 Xfabric 方式 连接 数据 处 理 器 '" 
( 它 是 使 用 二 维 网 格 拓扑 结构 的 直接 交换 网 络 ) 


























图 5.20 给 出 了 交换 组 件 原理 图 。 每 个 交换 需 有 四 个 本 地 端口 (LPORTO ~ 
LPORT3) 和 四 个 全 局 端口 (GPORTO ~GPORT3) 组 成 。 用 户 核 通过 本 地 端口 
来 发 送 48 位 字 和 接收 32 位 字 ，16 位 的 全 局 端口 用 于 将 数据 路 由 到 邻近 的 交 
换 器 。 
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全 局 
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全 局 数据 送出 “全 局 数据 进入 
图 5.20 交换 组 件 的 原理 图 上 | 





每 个 交换 组 件 都 具有 路 由 和 仲裁 的 功能 ， 它 可 以 将 多 个 并 行 数据 流 在 数据 源 
单元 和 目的 单元 之 间 以 最 小 的 延迟 传送 ， 因 此 避免 了 基于 总 线 的 系统 中 的 传输 
HA 


5.7.2 同步 SoC 的 异步 交叉 互联 (动态 网 络 ) 


用 于 SoC 应 用 的 男 一 个 NoC 是 美国 Fulcrum 公司 设计 的 PivotPoint 结构 !%1 。 
这 个 系统 的 中 心 是 Nexus 交叉 开关 ( 见 图 $.14)， 它 的 数据 吞吐 率 为 1.6Tb/s。 
Nexus 使 用 时 钟 不 敏感 的 异步 电路 。 它 在 设计 风格 上 具有 优势 ， 包 括 程 序 的 自 适 
应 技术 、 环 境 的 多 变性 和 较 低 的 系统 功 耗 。 对 多 时 钟 域 核 互联 的 需求 是 选择 异 ; 
设计 风格 的 原因 。 蜡 步 核心 可 以 在 不 同 的 时 钟 频 率 下 工作 ， 并 且 具 有 各 自 独立 的 
相位 。 在 同步 核心 和 异步 交换 矩阵 之 间 需 要 时 钟 域 交 换 器 进行 接口 连接 。 由 于 交 
叉 开 关 不 使 用 时 钟 信 号 ， 综 合 不 同 的 时 钟 域 不 需要 额外 的 开销 。 这 样 ， 系 统 是 全 
局 异步 的 ， 但 在 本 地 是 同步 的 ， 这 被 称 作 GALS 系统 。 

在 Nexus 上 的 数据 传输 通过 突 发 来 完成 。 每 次 突 发 包含 数量 可 变 的 数据 字 ， 
突 发 通过 一 个 尾部 信号 来 结束 。 一 个 4 位 的 控制 信号 被 用 于 表示 目的 通道 
(TO)， 它 在 突 发 离开 交换 器 时 变 为 源 通道 。Nexus 上 的 突 发 格式 如 图 5. 21 所 示 。 
突 发 通过 交换 器 自动 路 由 ， 并 且 它 不 能 中 断 、 分 段 或 者 复 用 。 
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源 突 发 ”一 一 一 一 一 交换 器 ”一 一 一 一 一 目的 地 





























数据 
36 位 | Pn | | Di Do Dy, |= | Dy Do 
交换 器 
尾部 
I 位 | 1 |e | 0 0 1 |…| 0 0 
控制 
4 位 a TO tee FROM 





















































图 5.21 Nexus 上 的 突 发 格式 





交换 器 在 物理 链 路 上 为 突 发 提供 通路 ， 通 路 在 突 发 的 第 一 个 字 进 入 交换 顺 时 
被 创建 ， 在 最 后 一 个 字 离 开交 换 器 时 被 关闭 。 


5.7.3 阻塞 与 不 阻塞 比较 


Nexus 和 PivotPoint 被 设计 用 于 避免 队 涉 (Head Of Line, HOL) 阻塞 。 当 一 
个 信息 包 不 能 被 传递 而 导致 后 面 的 不 相关 信息 包 阻 塞 时 ， 就 会 导致 HOL 阻塞 发 
生 。PivotPoint 使 用 虚拟 通道 (也 称 作 端口 ) 同时 传输 分 开 的 信息 流 。 被 阻塞 的 
言 息 包 仅 阻挡 同一 通道 中 之 后 的 信息 包 。 其 他 通道 的 信息 包 可 以 自由 前 进 。 这 
样 ， 通 信 的 停顿 被 减 到 最 小 。 








5.8 分 层 结构 和 网 络 接 口 单元 


网 络 接口 单元 是 NoC 中 的 关键 组 件 ， 因 为 它 可 以 解决 一 系列 传统 的 基于 总 


















































线 的 方法 3 的 限制 。 尽管 之 前 讨论 的 总 线 标准 提供 pe 
了 一 定 程度 上 的 IP 核 的 便携 性 和 可 重用 性 ， 它 们 很 载 入 /存储 
难 调整 为 高 级 的 程序 和 总 线 接口 技术 。 总 线 的 基本 | 
缺点 是 它们 不 使 用 分 层 的 方法 来 进行 互联 。 在 应 用 传输 层 
层 的 事务 通信 级 和 物理 层 的 信和 号 互联 之 间 没 有 明显 包 /信息 
的 分 离 。 相 反 ， 在 NoC 系统 中 的 活动 通常 被 分 离 成 | 
事务 层 、 传 输 层 和 物理 层 ， 如 图 5. 22 Bras. Alt, ,物理 层 
NoC 系统 可 以 很 好 地 适应 高 级 程序 技术 和 高 级 系统 i aa 


结构 的 快速 发 展 。 图 5.22 ”NoC 的 三 层 结构 5 
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Al 5.23 显示 了 一 个 通常 的 片上 源 
互联 网 络 ， 它 由 一 些 模块 组 成 ， 如 处 | mp P p 
Fiat, EA IP 模块 。 这 些 模块 被 连 
接 到 网 络 上 ， 网 络 可 以 建立 模块 之 间 
数据 传输 的 通路 。 模 块 之 间 的 所 有 通 
信和 通过 网 络 进行 ， 并且 网 络 人 逻辑 的 面 IP IP 
积 使 用 减少 为 6. 6%, Ph NoC 结 









































底层 定义 的 路 由 


























构 的 重要 特点 是 : (1) 分 层 结构 可 以 














很 容易 的 升级 ; (2) 灵活 的 交换 拓扑 
结构 可 以 被 用 户 设置 ， 从 而 优化 性 能 | P 



































和 适用 于 不 同 的 应 用 5 (3) 点 对 点 通 目的 地 
=A she aby yet Be > 间 的 信息 ; 
ae T IP 模块 之 间 的 信息 ee eC eT 


5.8.1 Noc 的 分 层 结构 


大 多 数 的 NoC 结构 采用 一 个 三 层 的 通信 结构 ， 如 图 5. 22 所 示 。 物 理 层 定义 
了 信息 包 如 何在 物理 接口 传输 。 程 序 技术 、 互 联 交 换 结 构 和 时 钟 频率 的 任何 改变 
都 会 影响 到 这 个 层 。 更 往 上 的 层 则 不 会 受到 影响 。 

传输 层 定义 了 信息 包 如 何在 交换 网 络 上 路 由 。 信 息 包 中 头 部 的 一 个 小 部 分 被 
用 来 指明 路 由 如 何 完成 。 事 务 层 定义 了 用 于 将 卫 模块 连接 到 网 络 的 原始 通信 。 
NoC 接口 单元 (NoC Interface Unit, NIU) 向 IP 模块 提供 了 事务 层 的 服务 ， 以 保 
证 信息 在 NoC 接口 之 间 的 交换 ， 从 而 实现 了 一 个 特定 的 事务 ( 见 图 5. 24) 。 

NoC 的 层次 结构 有 如 下 好 处 : 源 

1. 物理 层 和 传输 层 可 以 被 分 开 优 
化 。 物 理 层 被 程序 技术 所 支配 ， 事 务 层 IP IP 
则 依赖 特定 的 应 用 。 分 层 的 方法 允许 它 
们 在 互 不 影响 的 情况 下 分 开 优化 。 NY Nu 

2. 固有 的 可 升级 性 。NoC 中 一 个 正 
确 设 计 的 交换 结构 可 以 被 升级 ， 以 解决 
任何 数量 的 并 行事 务 。 该 结构 的 天 然 分 
布 性 允许 交换 器 进行 优化 ， 以 适应 需 
求 。 同 时 ， 负 责 事务 层 的 NIU 经 过 设 
计 ， 可 以 满足 IP 模块 性 能 的 需求 ， 使 NIU LA{ NU 
得 IP 核 不 用 在 配置 和 交换 结构 的 性 能 线路 ,逻辑 
上 花费 精力 。 图 5.24 NoC 的 事务 层 、 传 输 层 和 物理 层 '*| 
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3. 更 好 的 控制 优质 服务 。 在 传输 层 定义 的 规则 可 以 用 于 区 分 时 间 敏 感 的 和 
尽力 型 的 传输 。 信 息 包 的 优先 阵列 帮助 实现 优质 服务 的 需求 ， 以 在 严格 的 模块 上 
实现 实时 性 。 

4. 灵活 的 吞吐 量 。 通 过 分 布 多 个 物理 传输 链 路 ， 能 够 增加 吞吐 量 ， 以 适应 

5. 多 时 钟 域 操作 。 由 于 时 钟 的 概念 只 针对 物理 层 而 不 针对 传输 层 和 事务 层 ， 
特别 的 ，NoC 适用 于 包含 运行 在 不 同时 钟 频率 下 的 IP 模块 的 SoC。 在 物理 层 使 

合适 的 时 钟 同步 电路 ， 有 单独 时 钟 域 的 模块 可 以 结合 在 一 起 ， 从 而 减少 时 序 收 
SCA [i] 











5.8.2 NoC 和 NIU 的 实例 


XIF 5.7.2 节 中 的 Nexus 交换 器 ，NIU 实现 了 PivotPoint 系统 结构 ， 它 利用 
Nexus 交叉 开关 连接 节点 。 图 5. 25 给 出 了 一 个 简单 的 PivotPoint 结构 。 除 了 Nex- 
us 交叉 开关 外 ，FIFO 缓冲 器 为 传送 (TX) 和 接收 (RX) 通道 提供 了 数据 缓冲 
功能 。 系 统 信 息 包 接 口 (SPI-4.2， 图 中 简化 为 SPI-4) 为 片 对 片 通信 和 实现 了 一 个 
标准 的 协议 ， 协 议 的 数据 速率 为 9.9 ~16Gb/s。 



































































































































CPU 接口 
— SPI-4 16KB 16KB SPL4 | 一 
路 由 缓冲 器 缓冲 器 路 由 
表 | 16KB 16KB | 表 
—— SPI-4 缓冲 器 缓冲 器 SPI-4 广 一 一 
一 一 一 SPI-4 16KB 16KB SPL4 六 -一 
路 由 缓冲 器 E Nexus pee 缓冲 器 路 由 
表 | 16KB 交换 器 16KB | 表 
—— SPL4 缓冲 器 缓冲 器 SPL4 上 一 一 
— SPI-4 16KB 16KB SPL4 | 一 
路 由 缓冲 器 缓冲 器 路 由 
表 | 16KB 16KB | 表 
—— SPI-4 缓冲 器 缓冲 器 SPI-4 广 一 一 


























图 5.25 一 个 简单 的 PivotPoint 结构 ' 





5.8.3 总 线 与 NoC 比较 
与 总 线 相 比 ，NoC 并 不 是 没有 缺点 。 也 许 NoC 最 大 的 一 个 缺点 是 它 带 来 的 
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额外 的 延 时 。 不 像 依 靠 带 宽 和 吞吐 量 来 决定 服务 质量 的 数据 通信 网 络 ，Soc 应 用 
常 还 有 非常 严谨 的 延 时 限制 。 再 者 ，NIU 和 交换 结构 增加 了 系统 面积 。 因 此 ， 
SoC 中 传统 网 络 结构 的 直接 实现 常 带 来 不 可 接受 的 面积 和 延迟 开销 。 表 5. 6 给 出 
了 总 线 和 NoC 的 对 比 ， 给 出 了 它们 在 SoC 互联 质量 的 优点 与 缺点 。 


5.6 总 线 与 NoC Hylte 













































































































































































总 线 的 优 缺点 NoC 的 优 缺点 
点 对 点 单一 通路 线路 于 所 有 (4) PR] 2 
ee ees ae 通路 线路 被 用 于 所 有 大 小 的 网 络 
I Ke TY EA RE hy 络 线 \ 
总 线 时 序 分 析 在 深 亚 微米 工艺 上 比较 困难 (-) | ,时 四 过 协议 是 全 局 异步 的 网络 线 路 可以 条 
管道 化 ( +) 
ETAT tap taco 内 建 自我 检测 (Buil In Self Test, BIST) 快速 并 
总 线 测试 困难 并 且 较 慢 〈 - 
总 线 测试 困难 并 且 较 慢 ( - ) ww 
总 线 仲裁 延 时 随 着 主 设备 的 增加 而 增加 。 仲 裁 | ”路 由 决策 是 分 布 式 的 ， 相 同 的 路 由 器 被 所 有 大 
器 要 根据 具体 事例 确定 ( - ) 小 的 网 络 使 用 ( +) 
带宽 被 附加 的 单元 所 限制 并 且 共 享 ( - ) 聚集 带宽 按 网 络 大 小 规模 计算 (+) 
一 旦 仲裁 器 被 授予 控制 权 ， 总 线 延迟 为 零 (+ ) | ”内 部 网 络 竞争 造成 一 个 小 延迟 ( - ) 
对 于 小 系统 总 线 的 硅 开销 较 小 〈 + ) 网 络 具 有 较 大 的 硅 面积 ( - ) 
任何 总 线 几乎 直接 与 大 多 数 可 用 的 P EAE, 向 总 线 的 耳 需 要 灵活 的 封装 。 在 多 处 理 器 系 
包括 运行 在 CPU 上 的 软件 (+) 统 中 ， 软 件 需要 同步 清理 ( - ) 
概念 简单 易 懂 ( ) 系统 设计 者 需要 重新 学 习 新 概念 ( - ) 





5.9 互联 网 络 评估 


已 经 有 很 多 关于 不 同 网 络 配置 优点 比较 的 分 析 呈 ”5 。 下 面 用 一 个 简单 分 
析 模 型 来 评估 互联 网 络 。 


5.9.1 静态 网 络 与 动态 网 络 比 较 


本 节 很 大 程度 上 是 依据 Agarwal 在 网 络 性 能 上 的 工作 ， 得 出 结论 。 

动态 网 络 “假定 有 一 个 由 x 交换 器 组 成 的 具有 虫 孔 路 由 的 动态 间接 网 
络 。 假 定 这 个 网 络 有 n 级， 通道 位 宽 一 ww - 
为 w， 信 息 长 度 为 1 位 。 在 间接 网 络 
中 ， 假 定 第 一 个 网 络 通路 地 址 在 信息 
离开 节点 之 前 的 一 个 周期 中 传输 ， 因 
此 建立 互联 只 有 1 个 周期 的 开销 ， 如 d aia 
图 5.26 所 示 。 图 5.26 信息 从 节点 到 交换 器 的 传递 








一 一 到 网 络 路 径 
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假定 交换 器 有 单元 延迟 (7, 为 1 个 周期 ) ， 在 没有 竞争 的 情况 下 ， 信 息 在 网 
络 中 传输 的 总 时 间 为 
7. = (n+ 二 +1) 个 周期 
在 后 续 的 分 析 中 假定 n+1/w 光 1， 因 此 有 


T= n+ VEN 


(a Pa) 

在 阻塞 的 动态 网 络 中 ， 每 个 网 络 交换 器 都 有 一 个 缓冲 器 。 如 果 一 个 阻塞 被 检 
测 到 ， 在 这 个 节点 就 会 产生 一 个 队列 ; 所 以 ,WN 个 单元 每 一 个 都 需要 网 络 的 服 
务 ， 单 元 占有 率 为 p。 由 于 在 每 个 网 络 级 的 连接 线 数 量 是 一 样 的 ， 所 以 每 个 网 络 
级 所 期 望 的 占有 率 为 p。 在 每 个 交换 器 上 ， 信 息 的 传输 需要 一 个 等 待 时 间 。 
Kruskal 和 Snir? 已 经 给 出 了 这 个 时 间 的 大 小 〈 假 定 了 ,为 1 个 周期 ， 并 且 时 间 
用 周期 表示 ) : 

















p _PCVio) (1 = 17k) 
” 2(1-p) 
通道 占有 率 为 


p=m— 
w 


NF, m 为 一 个 节点 在 1 个 通道 周期 中 产生 请 求 的 可 能 性 。 
衣 息 传输 的 总 时 间 7, 
了 = T. + nT, 





gd np (li) 
mee a a VE) he 


静态 网 络 ”在 静态 (k, n) 网络 上 有 相似 的 分 析 。 令 ky 是 信息 传递 一 维 所 


需 的 平均 跳 数 。 对 于 具有 闭 包 的 单 向 网 络 ， 有 局 = FEY; 对 于 双向 网 络 ， ky = 

















E (是 偶数 ) ， 信 息 从 源 单元 传播 到 目的 单元 的 总 时 间 为 

T.= (h xn Xk+ Lr, 
继续 假设 7. 为 1 个 周期 ， 并 且 在 1 个 基本 周期 中 完成 剩余 的 计算 。Agarw- 
al'1 得 出 的 等 待 时 间 (M/G/1) 为 
_p lal 

“ l-pw fe 

信息 到 达 目 的 单元 (h=1) 的 总 传播 时 间 为 
Taa =T, +nkaT, 





(1 +1/n) 
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_ 1 nk.p 2s 
= ata tg tT plik) 


ak (也 就 是 = 2,3, 4) 不 能 被 用 于 计算 过 程 。 这 里 有 "1 
ao = P L 
2(1-p) w 


Mol RENFRI BEA ee 





(1 +1/n) 





If p= 


5.9.2 网 络 比较 : 实例 


在 接 下 来 的 实例 中 ， 假 定 m 为 0.1, m 是 一 个 单元 在 任何 通道 周期 中 需求 服 
务 的 可 能 性 ; h = 1, 1 = 256, w = 64。 将 4x4 网 格 ( 环 ) 静态 网 络 与 V = 
16 k=4, n=2 的 动态 网 络 和 N=16、k =2 平均 动态 网 络 相 比较 。 

对 于 动态 网 络 ， 层 级 的 个 数 为 





n =log,16 =4 
通道 占有 率 为 
l 256 
pam =O. 1x 可 =0.4 


没有 竞争 的 信息 传输 时 间 为 
T, sn+Ż 41 个 周期 = 44% +a +1 个 周期 = =9 个 周期 


等 待 时 间 为 


_pU/w) (A = 17k) _0.4( 256/64) (1 = 1/2) 0.8 
i. 2(1-p) 2(1 -0.4) 个 周期 = 了 2 个 周期 = =0. 67 个 周期 


因此 ,信息 传输 总 时 间 为 
Towanmic = T, + nT, =[9 +4(0. 67) ] 个 周期 =11. 68 个 周期 


对 于 静态 网 络 ， 平 均 跳 数 是 = 2 =1， 总 信息 传输 时 间 为 








lip (256\ ] 和 人 周期 -6 AEH 
T.=(hxnxky += -)T y= passie ge 个 周期 =6 个 周期 


由 于 





mkil 0.1x1x256, : 
= 周期 =0. 2 NAH 
2w 2 x64 | al 71 


对 于 低 k，7, 为 





pL 0.2 ee 
“(1 =p) w a 0.2) ~ y | 个 周期 = 0.5 TAB 


等 待 时 间 为 
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T tatio = T, + nk, T, 
=(6+2x0.1x0.5) 个 周期 
=7 个 周期 


5.10 Ba 


互联 子 系统 是 SoC 的 主干 。 系 统 的 性 能 会 被 互联 的 限制 所 压制 。 由 于 它 的 重 
要 性 ， 大 量 的 工作 是 优化 开销 -性 能 的 互联 策略 的 。 

除了 完全 定制 的 设计 ，SoC 有 两 种 差异 明显 的 互联 方法 : 基于 总 线 的 和 NoC 
的 。 然 而 ， 这 些 都 是 可 实现 的 方法 。NoC 可 以 连接 这 样 的 节点 ， 它 们 自己 是 基于 
总 线 的 处 理 器 或 其 他 IP 的 集群 。 

过 去 大 多 数 SoC 主要 是 基于 总 线 的 。 被 连接 的 节点 数量 是 很 少 的 (也许 是 4 
个 或 8 个 IP)， 并 日 每 个 节点 仅 由 一 个 IP 组 成 。 它 保持 着 一 个 被 测试 过 的 互联 方 
法 ， 这 个 方法 能 够 简单 使 用 。 协 议 标准 和 总 线 封装 的 使 用 使 得 IP 核 集成 的 任务 
具有 更 少 的 错误 风险 。 而 且 ， 大 量 总 线 选 择 允许 使 用 者 在 复杂 度 、 使 用 方便 性 、 
性 能 和 通用 性 方面 做 出 权衡 。 

随 着 互联 节点 数量 的 增加 ， 基 于 总 线 方法 的 带宽 限制 变 得 更 加 明显 。 交 换 
器 解决 了 带宽 的 限制 ， 但 是 增加 了 额外 的 开销 。 开 销 取决 于 配置 和 额外 的 延 
Ro FP Achat (无 论 静 态 或 者 动态 ) 被 集成 到 IP 中 ,能 够 被 很 好 地 支持 ， 
并 且 有 处 理 突 发 事件 的 工具 。 它 们 将 成 为 SoC 互联 的 标准 ， 特 别 是 对 于 高 性 能 
系统 。 

对 基于 总 线 或 交换 的 互联 进行 性 能 建 模 是 SoC 设计 中 很 重要 的 一 部 分 。 如 果 
一 开始 分 析 到 基于 总 线 的 互联 有 低 效 带宽 和 系统 性 能 ， 就 可 以 选择 基于 交换 的 设 
计 。 初 始 分 析 和 设计 选择 通常 是 基于 分 析 模 型 进行 的 ， 但 是 一 旦 只 有 很 少 的 选 
择 ， 一 个 更 加 全 面 的 仿真 需要 被 用 于 确定 最 后 的 选择 。Soc 的 性 能 取决 于 互联 设 
计 的 配置 和 承载 量 。 

在 NoC 实现 中 ， 网 络 接口 单元 充当 一 个 重要 角色 。 它 具有 相对 较 小 的 开销 ， 
实现 了 互联 的 分 层 。 它 允许 设计 的 重新 构造 ， 并 支持 加 入 新 的 交换 器 进行 扩展 ， 
而 不 影响 SoC 的 上 层 实 现 。NoC 使 用 的 增长 促进 了 SoC 的 发 展 。 

在 SoC 互联 中 有 很 多 话题 不 在 本 章 的 讨论 范围 ， 如 片上 通信 协议 的 设计 与 验 
证 的 结合 ' 中 、 自 测 时 间 信 息 包 的 交换 Ll、 功能 模块 化 、NoC 系统 的 验证 :2 和 
AMBA 4 技术 在 重 配置 逻辑 上 的 优化 。 本 章 的 内 容 和 其 他 相关 内 容 ， 如 Pasricha- 
he 和 Dutt!) ， 这 里 只 给 出 了 基本 的 介绍 ， 读 者 可 以 根据 这 些 内 容 ， 为 SoC 互联 
的 深入 发 展 做 出 贡献 。 
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5.11 习题 


1. 一 个 独占 分 离 (地 址 加 上 双向 数据 总 线 ) 总 线 是 32 位 + 64 位 位 宽 的 。 
一 个 典型 的 总 线 事务 〈 读 或 写 ) 使 用 32 位 内 存 地 址 ， 紧 接着 有 一 个 128 位 数据 
传输 。 假 设 访 存 时间 是 12 个 周期 。 

(a) 画 出 读 和 写 的 时 序 图 (假设 没有 竞争 ) 。 

(b) 一 个 事务 的 (数据 ) 总 线 占 有 率 是 多 少 ? 

2. 如 果 四 个 处 理 需 使 用 上 题 中 描述 的 总 线 ， 理 想 情 况 下 (没有 竞争 ) 每 个 
处 理 需 每 20 个 周期 产生 一 个 事务 。 

(a) 给 定 的 总 线 占 有 率 为 多 少 ? 

(b) 使 用 没有 重新 提交 的 总 线 模型 ， 实 际 的 占有 率 为 多 少 ? 

(c) 使 用 有 重新 提交 的 总 线 模型 ， 实 际 的 占有 率 为 多 少 ? 

(d) (b) 和 (c) 的 结果 对 系统 性 能 的 影响 是 什么 ? 

3. 查询 目前 使 用 AMBA 总 线 的 产品 的 资料 ; 找到 至 少 三 个 不 同 的 系统 ， 列 
表 显 示 它 们 各 自 的 参数 (AHB 和 APB); 总 线 位 宽 、 带 宽 和 每 条 总 线 的 卫 使 用 
者 数量 的 最 大 值 。 尽 可 能 给 出 详细 的 信息 。 

4. 查询 使 用 CoreConnect 总 线 的 当前 产品 的 资料 ， 找 到 至 少 三 个 不 同 的 系 
统 ， 列 表 显 示 它 们 各 自 的 参数 (PLB 和 OPB): 总 线 位 宽 、 带 宽 和 每 条 总 线 的 IP 
使 用 者 数量 的 最 大 值 。 尽 可 能 给 出 详细 的 信息 。 

5. 讨论 在 将 总 线 封 装 从 AMBA 总 线 转换 为 CoreConnect 总 线 时 会 遇 到 的 
问题 。 

6. 一 个 静态 交换 互联 是 4 x4 HAY (AE), ， 具 有 虫 孔 路 由 。 每 条 通路 是 
双向 的 ， 有 32 条 线路 ; 每 条 线路 的 速率 为 400Mb/s。 对 于 由 8 位 头 部 和 128 位 
“负载 ”组 成 的 信息 ， 那 么 

(a) 信息 从 一 个 节点 传输 到 相 邻 节点 的 期 望 延 迟 (用 周期 数 表 示 ) 是 多 少 ? 

(b) 节点 之 间 的 平均 距离 和 平均 信息 延迟 是 多 少 〈 用 周期 数 表示 )? 

(c) 如 果 网 络 的 占有 率 为 0.4， 由 于 信息 阻塞 (FF) 造成 的 延 时 是 多 少 ? 

(d) 信息 传输 总 时 间 是 多 少 ? 

7. 一 个 动态 交换 互联 用 于 连接 16 个 节点 ， 它 使 用 一 个 2 x2 交叉 开关 的 交 
换 网 络 。 在 一 个 2 x2 开关 上 传输 需要 一 个 周期 。 每 条 通路 是 32 线路 双向 通信 
的 ;每 条 线路 的 速率 是 400Mb/s。 对 于 由 8 位 头 部 和 128 位 “负载 ”组 成 的 信 
A, ABA 

(a) 一 条 信息 从 一 个 节点 传输 到 另 一 个 节点 的 期 望 时 间 是 多 少 〈 用 周期 数 
表示 )? 
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(b) 画 出 这 个 网 络 。 

(c) 如 果 网 络 的 占有 率 为 0.4， 信 息 等 待 时 间 是 多 少 ? 

(d) 信息 传输 的 总 时 间 是 多 少 ? 

8. 交换 网 络 的 二 分 带宽 ， 是 将 网 络 分 为 两 个 相同 部 分 (市 点 数 ) 后 ， 通 过 
线路 的 最 大 的 可 用 带宽 。 按 上 述 描 述 ， 静 态 网 络 和 动态 网 络 的 二 分 带宽 是 多 少 ? 

9. 查询 资料 ， 找 到 至 少 三 个 不 同 的 NoC 系统 ;， 比 较 它 们 底层 的 交换 器 (FR 
到 至 少 一 个 动态 和 一 个 静态 的 例子 ) 。 用 表格 显示 详细 信息 。 














ee Ae r PE 


6.1 引言 





为 了 扩大 SoC 的 适用 范围 同时 降低 成 本 ， 可 以 用 一 般 的 可 定制 的 硬件 平台 提 
高 特定 应 用 程序 效率 。 本 章 主要 讲述 一 些 定制 技术 ， 尤 其 是 基于 可 配置 性 的 定制 
技术 。 这 里 所 说 的 可 配置 性 包括 一 次 可 配置 性 和 可 重复 配置 。 前 者 表示 面向 应 用 
程序 的 芯片 定制 在 制造 之 前 或 之 后 只 进行 一 次 ; 后 者 表示 世 片 的 定制 在 制造 后 还 
可 以 多 次 进行 定制 。 

在 设计 阶段 的 定制 ， 尤 其 是 那些 在 设备 制造 过 程 中 进行 的 定制 ， 通 常 性 能 会 
很 高 ， 但 在 设计 开展 之 后 会 牺牲 一 定 的 灵活 性 。 这 种 后 制造 的 灵活 性 是 通过 具有 
不 同 程度 可 编程 性 的 器 件 来 实现 的 ,包括 粗 粒 度 可 重 构 结构 ( Coarse-Grained 
Reconfigurable Architecture ，CGRA) ， 专 用 指令 集 处 理 絮 ( Application-Specific In- 
struction Processors，ASIP) ， 细 粒度 FFGA，DSP，GPP。 可 编程 性 与 性 能 之 间 的 
Ge 本 书 第 1 章 已 经 介绍 过 。 
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低 可 编程 性 
图 6.1 可 编程 性 与 性 能 之 间 的 关系 
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与 可 定制 的 ASIC 技术 相 比 ， 结 构 化 的 ASIC 技术 支持 设计 之 前 的 有 限 的 可 
定制 性 。 在 图 6.1 中 ，ASIP 被 假定 为 在 制造 时 定制 。 当 然 ， 如 果 ASIP 在 FPGA 
中 作为 软件 处 理 器 使 用 ， 那 么 ASIP 可 以 在 编译 时 刻 定制 。 这 种 可 定制 的 ASIP 处 
理 器 将 会 在 6. 8 节 讲 述 。 

有 很 多 定制 SoC 的 方法 ， 本 章 着 重 讲述 以 下 三 种 ; 

1. 指令 处 理 器 的 定制 ( 见 6.4 节 和 6.8 节 )， 揭 示 了 (a) 处 理 器 族 的 可 用 
性 和 “(b) 特定 应 用 程序 处 理 器 的 生产 是 怎样 提供 结构 优化 的 ， 如 VLIW, RE 
化 、 融 合 操作 (fused operation ) ， 以 及 多 线程 等 优化 方式 ， 最 终 满 足 性 能 、 面 
耻 、 能 源 效率 及 价格 的 需求 。 

2. 可 重 构架 构 的 定制 ( 见 6.5 和 6.6 节 )， 讲 述 细 粒 度 可 重 构 功 能 单元 
(Functional Unit, FU) 与 相关 的 互联 资源 是 很 通用 的 ， 但 会 导致 很 大 的 开销 ， 
因此 可 以 用 较 多 的 粗 粒 度 的 模块 来 减少 这 种 开销 。 

3. 用 于 实现 优化 的 定制 技术 ， 如 特定 实例 设计 ( 见 6.7 节 ) 和 运行 时 重 构 策 
略 ( 见 6.9 节 ) ， 以 及 在 性 能 、 尺 寸 、 功 率 、 资 源 利 用 率 之 间 权 衡 的 评估 方法 。 

其 他 定制 技术 不 会 做 详细 的 介绍 ， 如 基于 多 处 理 器 的 技术 。 这 些 相关 的 技术 
见 6.10 节 。 


6.2 估算 定制 的 有 效 性 


在 设计 的 过 程 中 ， 对 不 同 的 定制 技术 的 有 效 性 进行 估算 与 比较 很 重要 。 评 佑 
的 方法 很 简单 。 对 于 给 定 的 度量 标准 ， 如 延迟 、 面 积 、 功 耗 ， 假设 对 于 设计 的 B 
(百分比 ) 部 分 a 为 其 改进 系数 。 那 么 这 个 度量 标准 被 提高 了 ， 即 

(1-B) +axB 

这 种 度量 方式 让 人 联想 到 G. Amdahl 对 并 行 处 理 器 的 分 析 。 例 如 ， 在 著名 的 
90; 10 法 则 中 ， 一 个 好 的 提高 速度 的 方法 是 让 10% 的 代码 占据 了 90% 的 执行 时 
间 。 如 果 这 10% 的 代码 执行 速度 提高 售 会 怎么 样 呢 ? 

在 上 面 的 表达 式 中 ，a = 1/k, B =0.9， 得 到 (4 +9)/(10k), 假设 k=10， 
那么 这 个 执行 时 间 减 少 为 原来 的 19% ， 加 速 比 为 5. 26。 

但 是 ， 如 果 这 些 可 加 速 的 代码 的 执行 时 间 的 所 占 的 比例 从 原来 的 90% 降 到 
60% ， 会 发 现 加 速 比 仅 为 2. 17 倍 ， 几 乎 变 成 原来 的 1/2, 

注意 ， 提 供用 于 有 效 性 估计 的 代码 量 不 影响 上 面 的 结果 ; 而 是 可 定制 部 分 的 
代码 所 执行 时 间 占 总 时 间 的 比例 影响 上 面 的 结果 。 

这 种 方法 可 用 于 很 多 方面 ， 如 考虑 用 凯 入 式 粗 粒度 模块 定制 细 粒 度 可 重 构架 
H (后 面 将 会 介绍 )。 假 设 有 50% 的 细 粒 度 结构 可 以 被 粗 粒 度 块 替换 ， 这 部 分 速 
度 会 提高 三 倍 ， 面 积 使 用 率 会 提高 35 倍 。 可 以 发 现 ， 设 计 比 以 前 快 了 50% ， 总 
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面积 几乎 减少 了 1/2。 

然而 ， 有 一 些 限 制 因素 影响 了 可 定制 性 的 实施 。 实 现 可 定制 处 理 器 的 一 些 工 
具 不 能 像 用 于 实现 非 定 制 性 处 理 器 那样 成 熟 ， 如 性 能 分 析 器 和 优化 器 ; Fab, E 
后 兼容 与 验证 也 会 有 困难 。 一 种 解决 方案 是 开发 与 现存 的 非 定 制 模块 相 兼容 的 可 
定制 处 理 器 ， 这 样 在 可 定制 与 非 可 定制 技术 :之 间 就 存在 了 互 用 性 。 





6.3 SoC 定制 综述 


定制 是 一 个 为 了 满足 应 用 需求 和 实施 约束 条 件 而 对 设计 进行 优化 的 过 程 。 该 
过 程 可 以 在 设计 或 运行 时 刻 实 现 。 设 计 由 两 个 阶段 组 成 : 制造 阶段 与 编译 阶段 。 
在 制造 阶段 生产 出 来 的 设备 ， 如 果 是 可 配置 的 ,那么 制造 阶段 完成 后 ， 它 可 以 由 
编译 或 运行 时 产生 的 程序 实例 化 。 

通常 有 三 种 方式 执行 运算 : 标准 的 指令 处 理 器 、ASIC 及 可 重 构 的 设备 。 

1. 标准 的 指令 处 理 器 ， 像 ARM、AMD 及 Intel 指令 处 理 器 ， 在 定制 的 制造 
阶段 产生 支持 固定 的 指令 集 架构 的 设备 ， 而 在 编译 阶段 为 该 架构 产生 指令 ， 在 运 
行 时 定制 是 指定 位 或 产生 用 于 运行 时 的 合适 代码 。 

2. 对 于 ASIC， 许 多 实现 应 用 程序 功能 的 定制 是 在 制造 阶段 进行 的 。 因 此 定 
制 的 设备 具有 很 高 的 性 能 ， 但 灵活 性 差 。 这 是 因为 如 果 在 制造 前 若 没有 设计 一 些 
可 扩展 的 功能 ， 那么 新 功能 将 很 难 添加 进去 。 结 构 化 的 ASIC， 像 门 阵列 或 者 是 
标准 单元 技术 ， 通 过 限制 用 户 对 芯片 定制 的 选择 〈 如 对 金属 层 的 选择 ) 减少 了 
设计 工作 量 。 可 一 次 定制 的 反 熔 丝 技术 可 以 用 于 这 个 领域 。 

3. 可 重 构 设备 主要 包括 FPCA、 复 杂 可 编程 逻辑 锅 件 (Complex Programma- 
ble Logic Device，CPLD) ， 以 及 含有 支持 定制 指令 的 可 重 构 架构 的 指令 处 理 需 。 
在 定制 的 制造 阶段 会 产生 含有 可 重 构架 构 的 设备 ， 这 种 设备 含有 可 重 构 元 素 ， 元 
素 之 间 通 过 可 重 构 的 互联 资源 进行 连接 。 在 编译 时 刻 ， 配 置信 息 在 设计 的 描述 中 
产生 ， 在 运行 时 使 用 这 些 配置 信息 定制 设备 。 

标准 指令 处 理 吉 以 通用 为 目的 。 但 是 ， 也 可 以 定制 用 于 特定 应 用 程序 的 指令 
集 和 架构 。 例 如 ， 标 准 的 指令 集 可 以 通过 去 掉 一 些 不 用 的 指令 或 者 是 添加 一 些 新 
的 指令 来 提高 性 能 。 指 令 处 理 需 的 定制 ， 可 在 ASIC 技术 的 制造 阶段 或 者 在 可 重 
构 硬 件 技术 的 配置 阶段 完成 。 

。 制造 阶段 定制 的 处 理 器 主要 包括 美国 ARC 公司 和 美国 Tensilica 公司 的 处 
理 器 。 通 常 一些 构件 在 制造 阶段 是 硬 连 线 的 ， 这 是 为 了 文 持 特定 域 的 优化 ， 如 为 
特定 应 用 程序 定制 指令 等 。 在 ASIC 技术 中 ,为 了 减少 风险 ,通常 在 设计 实施 之 
前 要 有 可 重 构 的 原型 。 

。 对 于 美国 Xilinx 公司 的 MicroBlazel251 或 美国 Altera 公司 的 Nios’!!! 等 软 核 
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人 处理 器 ， 挑 战 是 如 何 有 效 地 支持 指令 处 理 器 。 这 些 处 理 器 使 用 像 FPGA 这 样 的 具有 
可 重 构架 构 的 资源 。 可 以 通过 探索 专用 设备 特点 或 者 运行 时 可 配置 性 22) ， 来 提高 
可 编程 器 件 的 使 用 效率 。 

© 男 一 个 选择 是 用 ASIC 技术 实现 指令 处 理 器 。 这 需要 开发 一 个 合适 的 接 
口 ， 以 使 处 理 器 能 够 使 用 通过 可 重 构架 构 实 现 的 定制 指令 。 例 如 Stretch! 27] 
的 软件 可 配置 处 理 器 ， 它 由 美国 Tensilica 公司 的 Xtensa 指令 处 理 器 及 粗 粒 度 可 
重复 配置 架构 组 成 。 在 应 用 程序 需要 与 它们 的 体系 结构 相 匹配 的 资源 时 ， 这 些 设 
备 可 以 提供 比 FPGA 更 高 的 效率 。 

考虑 使 用 哪 种 技术 关键 得 看 处 理 需 的 数量 。 回 忆 本 书 第 1 章 的 内 容 ， 产 品 成 
本 包括 一 个 与 处 理 器 数量 无 关 的 固定 成 本 ， 还 包括 因 处 理 需 数量 不 同 而 可 变 的 成 
本 。 像 PFGA 这 样 的 重 构 技术 只 有 很 少 的 固定 成 本 , 但 比 起 ASIC 技术 ， 它 有 更 
高 的 可 变 成 本 。 因 此 ， 在 处 理 器 的 数量 方面 低 于 某 个 闵 值 时 ， 重 构 技 术 的 成 本 最 
低 。 并 且 ， 重 构 技 术 的 这 个 阔 值 会 随 着 时 间 的 推移 而 产生 波动 ， 因 为 封装 成 本 和 
其 他 固定 成 本 会 随 着 新 技术 的 产生 迅速 增加 。 

有 很 多 对 可 定制 SoC 进行 分 类 的 方法 。 一 个 可 定制 的 SoC 通常 包括 一 个 或 多 
个 处 理 器 、 可 重 构 逻 辑 及 存储 部 件 。 可 以 根据 可 重 构 逻辑 和 这 种 处 理 需 的 连接 方 
式 对 这 种 SoC 进行 分 类 [o1 。 

图 6. 2a 给 出 了 连接 到 系统 总 线 的 可 重 构架 构 。 图 6. 2b 给 出 了 可 重 构架 构 作 为 
CPU 的 一 个 协 处 理 避 的 情况 ， 比 起 图 6. 2a 所 示 架 构 它 与 处 理 需 的 连接 更 近 一 些 。 
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图 6.2 ”四 种 定制 SoC“) (阴影 方块 代表 可 重 构 逻辑 ) 
a) 附加 出 单元 b) 协 处 理 器 
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图 6.2 WARE Soci (阴影 方块 代表 可 重 构 逻 辑 ) ( BE) 
c) 可 重 构 FU d) HRA BI HER HAY cb a 








图 6. 2c 给 出 了 一 个 处 理 器 与 这 种 架构 结合 更 紧密 的 体系 结构 。 这 种 情况 下 ， 
可 重 构 逻辑 作为 处 理 需 的 一 部 分 ， 可 能 会 形成 一 个 可 重 构 的 子 单元 来 支持 定制 指 
Lo RE Stretch 公司 的 软件 可 配置 处 理 需 就 是 这 样 组 织 的 。 

图 6.2d 给 出 了 另 一 种 组 织 方式 。 在 这 种 方式 下 ， 处 理 需 内 内 在 可 编程 架构 
中 。 人 处理 器 可 以 是 硬 核 *1， 也 可 以 是 软 核 ， 通过 可 重 构 逻 辑 本 身 的 资源 来 决 
定 。 这 样 的 实例 包括 先前 提 到 的 MicroBlaze 和 Nios XbFE RE, 

也 可 以 将 可 配置 的 模拟 电路 与 数字 电路 的 功能 整合 在 同一 个 芯片 上 。 例 如 
美国 Cypress 公司 的 可 编程 片上 系统 (Programmable SoC, PSoC) w4 有 一 
个 模拟 模块 阵列 ， 它 可 以 配制 成 多 种 部 件 的 组 合 ， 包 括 比 较 器 、 过 滤器 、 具 有 
可 编程 互联 结构 的 模 - 数 转换 需 等 。 这 些 组 件 及 可 重 构 数 字模 块 的 LO 可 以 很 
容易 地 连接 到 IO 出 端口 。 并 且 在 运行 时 ， 这 些 模 块 可 以 进行 重 构 以 执行 不 同 
的 功能 。 


6.4 定制 指令 处 理 器 


桌面 计算 机 的 微 处 理 器 为 通用 计算 而 设计 。SoC 上 的 指令 处 理 带 通常 是 为 特 
定 类 型 的 计算 而 设计 ， 如 媒体 处 理 或 数据 加 密 。 因 此 可 以 通过 定制 得 到 非常 符合 
特定 意图 的 处 理 咒 ， 并 且 消 除 不 需要 的 硬件 部 分 。 尽 管 很 多 技术 可 用 于 软 核 处 理 
器 的 设计 ， 但 这 种 定制 通常 在 制造 之 前 进行 。 这 种 定制 允许 设计 者 在 提高 产品 多 
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样 性 的 同时 ， 优 化 它们 的 设计 以 满足 一 些 需求 ， 如 速度 、 面 积 、 功 耗 和 准确 
性 等 。 


6.4.1 处 理 器 定制 方法 


处 理 器 的 定制 方法 主要 有 两 种 。 第 一 种 方式 是 通过 特定 应 用 程序 域 的 处 理 器 
族 产 生 。 例 如 ,美国 ARM 公司 提供 的 一 些 处 理 锅 ， 像 Cortex-A 系列 用 于 文 持 需 
要 大 量 计算 的 应 用 程序 ，Cortex-R 系列 用 于 实时 处 理 ，Cortex-M AHI) A) ERR A 
式 应 用 程序 微 控 制 器 (Cortex-M1 处 理 器 实现 了 FPGA 的 优化 ) SecurCore 系列 
处 理 需 用 于 防 自 改 智能 卡 。 每 一 系列 包含 一 类 不 同 特征 的 处 理 咒 ， 人 允许 设计 者 根 
据 自己 在 功能 或 性 能 及 功 耗 等 的 需求 ， 选 择 合适 的 处 理 需 。 

第 二 种 方法 是 提供 能 生成 定制 的 处 理 器 的 工具 。 美 国 ARC 公司 和 美国 Ten- 
silica 公司 生产 了 一 些 设 计 工 具 ， 人 允许 SoC 设计 师 使 用 图 形 化 用 户 接口 或 者 基于 
体系 结构 描述 语言 来 配置 和 扩展 一 个 处 理 器 。 使 用 这 些 工 具 ， 设 计 师 可 以 通过 对 
现 有 的 处 理 器 进行 修改 ， 如 添加 一 些 需要 的 特征 或 删除 不 需要 的 特征 ， 从 而 生产 
目标 处 理 器 。 此 外 ， 设 计 师 还 可 以 通过 添加 定制 指令 来 扩展 内 核 的 体系 结构 ， 从 
而 使 处 理 器 对 最 终 应 用 程序 进一步 优化 。 

为 了 对 尺寸 、 功 耗 、 应 用 程序 性 能 进行 优化 设计 ， 一些 SoC 设计 工具 还 提供 
最 终 的 芯片 面积 和 内 存 需求 的 说 明 。 设 计 者 可 以 配置 与 处 理 需 内 核 相 关 的 一 些 特 
征 ， 如 缓存 的 类 型 与 大 小 、DSP 子 系统 、 计 时 器 及 调试 组 件 ; 还 可 以 配置 处 理 右 
内 核 的 一 些 内 部 特征 ， 如 内 核 中 寄存 器 的 类 型 与 大 小 、 地 址 宽度 、 指 令 集 选择 
等 。 其 最 终日 的 是 对 性 能 与 面积 之 间 的 权衡 提供 一 种 优化 方案 。SoC 工具 通常 包 
括 以 下 一 些 具体 功能 : 

。 集成 不 同 来 源 的 IP 核 。 

。 产生 系统 验证 的 仿真 脚本 与 测试 实例 。 

© 扩展 软件 开发 工具 的 功能 ， 如 支持 定制 处 理 絮 的 定制 指令 。 

。 自动 产生 FPGA 设计 的 仿真 平台 。 

。 在 被 授权 的 芯片 规范 中 选择 配置 的 文档 ， 以 及 用 户 级 文档 。 

这 些 工具 通常 可 以 在 几 分 钟 内 配置 和 产生 一 个 定制 的 处 理 器 。 并 且 通 过 产生 
所 需要 配置 的 具体 信息 ， 如 测试 时 所 需要 的 信息 、 下 游 开发 工具 及 开发 文档 的 信 
息 ， 可 以 让 配置 程序 减少 流 片 时 间 ， 降 低 项 目 风 险 。 

有 关 定 制 般 入 式 处 理 器 的 开发 工具 及 其 应 用 程序 的 更 多 的 信息 ， 都 可 以 在 不 
同 的 文献 资料 中 找到 "1。 


6.4.2 ”架构 描述 
现代 处 理 器 变 得 越 来 越 复杂 ， 因 此 ， 在 设计 处 理 器 和 与 处 理 器 相关 的 软件 工 
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具 时 ， 提 供 一 定 程 度 的 自动 化 很 有 必要 。 没 有 自动化， 对 每 一 个 应 用 ， 设 计 和 验 


证 工作 需要 从 头 构建 一 个 处 理 需 及 其 工具 。 
体系 结构 描述 语言 或 处 理 器 描述 语言 对 于 处 理 器 及 其 工具 的 自动 化 发 展 起 到 





很 大 的 作用 ”i 。 对 于 设计 者 来 说 ， 这 些 语言 在 应 用 于 不 同 的 应 用 程序 时 应 该 很 
简洁 、 高 效 ; 并 且 用 于 描述 真实 、 有 效 的 设计 时 容易 理解 。 已 经 有 很 多 语言 可 用 
来 描述 指令 处 理 需 。 这 些 语言 的 目标 是 捕 换 处 理 吉 的 设计 以 便 使 处 理 融 和 辅助 工 
具 可 以 自动 产生 。 

体系 结构 描述 语言 可 以 通过 描述 风格 、 描 述 层次 及 提供 的 自动 化 的 类 型 进行 
分 类 。 例如， 可 以 把 体系 结构 描述 语言 分 成 行为 级 、 结 构 级 ,或 者 两 者 之 间 的 


d 
结合 。 


行为 级 描述 以 指令 集 为 中 心 : 设计 者 确定 指令 集 ， 然 后 使 用 工具 产生 编译 
器、 汇编 咒 、 连 接 器 及 仿真 器 。nML:”] Al TIE? 语言 属于 行为 级 描述 语言 的 范 
We, PMSA TA, a GURG™"] ， 当 指令 可 以 通过 语法 树 描述 时 ， 很 容易 
目 动产 生 用 行为 级 描述 语言 实现 的 编译 占 后 端 。 许 多 行为 级 描述 语言 广 持 处 理 融 
的 硬件 综合 ， 综 合 工 具 可 用 于 上 述 的 实例 。 在 TIE 语言 中 ,综合 被 简化 了 ， 因 为 
所 基于 的 处 理 咒 是 固定 的 ， 只 有 扩展 部 分 可 以 由 设计 者 指定 。nML“Go” 工 具 
可 由 指令 集 自动 设计 处 理 器 结构 ， 通 过 显示 的 资源 共享 ， 如 寄存 器 堆 ， 推 断 
出 处 理 器 结构 。 

行为 级 描述 的 主要 优势 在 于 其 高 度 的 抽象 性 : 生成 一 个 定制 的 处 理 器 ， 只 需 
要 一 个 指令 集 规 范 。 它 的 主要 缺点 是 ， 硬 件 实现 时 缺乏 灵活 性 。 综 合 工具 必须 保 
证 微 体 系 结构 甚至 是 整个 基础 芯片 六 的 一 些 特征 不 变 。 当 考虑 到 资源 共 
享 呈 时 ， 对 自动 化 设计 来 说 ， 仅 依靠 指令 集 实现 有 效 的 综合 是 很 困难 的 。 

结构 级 描述 可 以 获取 处 理 器 内 部 的 功能 单元 、 存 储 资 源 及 互联 资源 。 
PREE” 是 一 个 建立 在 C++ 之 上 的 库 ， 它 可 以 通过 结构 描述 产生 FPGA 软件 
处 理 噩 。 设 计 者 可 以 删除 一 些 指 令 或 者 是 改变 功能 单元 的 实现 方式 ， 因 为 
SPREE 提供 一 种 方法 连接 功能 模块 ， 并 内 部 支持 常见 功能 ， 如 劳 路 网 络 和 互 
锁 等 。 

结构 级 描述 的 主要 优势 是 它 可 以 直接 转化 成 一 种 适 于 综合 成 硬件 的 形式 。 此 
外 ， 大 多 数 结构 级 描述 会 保持 人 硬件 描述 语言 (Hardware Description Language, 
HDL) 的 原则 。 这 种 原则 有 利于 不 同 的 微 体系 结构 的 描述 ， 如 超标 量 和 多 线程 
等 。 结 构 级 描述 的 主要 缺点 是 抽象 层次 较 低 : 设计 者 需要 手动 地 指定 功能 单元 和 
控制 结构 。 

表 6. 1 给 出 了 一 些 体系 结构 描述 语言 的 特征 。 对 于 每 种 语言 ， 都 有 它 的 描 
述 风格 ， 描 述 范围 〈 整 个 处 理 吉 或 者 仅 是 指令 集 ) 及 上 自动 产生 处 理 机 系统 的 
工具 


— 
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表 6.1 一 些 体系 结构 描述 语言 的 特征 












































特 IE ExpressionLl4] | CUSTARD! | Lisa!!! SPREE[269] nMLL239] TIEL] 
整个 处 理 器 v v v v V 
工具 链 配置 Vv Vv vV v v v 
产生 硬件 V V V v v 
存储 系统 Vv vV v 
行为 级 v v v v y 
结构 级 v v v 
一 些 系统 ， 如 LISA, RA AZAR NGAI ARE. AARAA 
合 了 行为 级 描述 和 结构 级 描述 的 优点 ,但 是 需要 保证 相关 行为 及 结构 元 素 的 一 
致 性 。 


除了 TIE 之 外 的 所 有 语言 都 可 以 用 于 描述 整个 处 理 器 ， 也 就 是 说 可 以 对 整个 
处 理 需 进行 设计 ， 而 不 仅 是 指令 集 。 然 而 ， 许 多 处 理 器 描述 语言 专 为 一 个 基本 的 
处 理 需 架构 而 设计 ， 如 在 LISA 及 nML 中 的 顺序 执行 。6. 8 节 将 介绍 的 可 定制 的 
线程 结构 (Customizable Threaded Architecture, CUSTARD)‘ ， 是 基于 MIPS 指 
令 集 ， 可 以 同时 支持 各 种 定制 选项 ， 如 多 线程 的 类 型 和 定制 指令 的 使 用 等 。 
这 些 语言 需要 使 用 以 下 工具 ” : 
。 模型 后 成 器 。 这 类 工具 可 以 生成 硬件 原型 和 验证 模型 ， 来 检查 体系 结构 
是 





描述 是 否 符 合 需求 。 
测试 生成 器 。 这 类 工具 用 于 产生 测试 程序 、 断 言 和 测试 用 例 。 
。 工具 包 生 成 器 。 这 类 工具 用 于 分 析 、 检 索 、 编 译 、 人 仿真、 装配 和 调试 


设计 o 
6.4.3 自动 识别 定制 指令 


有 多 种 方法 可 以 通过 对 高 级 应 用 程序 的 描述 自动 识别 扩展 指令 集 。 可 以 试探 
性 地 将 一 些 数 据 流 图 (Data Flow Graph, DFG) 节点 聚集 成 串 行 或 并 行 模板 。 通 
过 在 子 图 中 加 一 些 1/0 约束 来 减少 搜索 空间 的 指数 增长 。 

各 种 各 样 的 体系 结构 优化 方案 (一些 已 经 在 前 面 的 章节 中 讲 过 ) ABFA 
动 化 设计 ， 例 如 W"1， 

© VLIW 技术 使 得 一 条 指令 可 以 支持 多 种 独立 的 操作 。VLIW 格式 将 一 个 指 
令 分 成 多 个 字段 ， 每 个 字段 代表 一 个 操作 。 如 果 指 令 集 在 设计 时 使 用 VLIW 技 
术 ， 那 么 源 语 言 编译 器 可 以 使 用 软件 流水 和 指令 调度 技术 将 多 个 操作 打包 成 一 个 
单独 的 VLIW 指令 。 

。 建立 对 多 个 数据 元 素 进 行 操作 的 矢量 运算 可 以 增加 吞吐 量 。 矢 量 运算 的 











184 计算 机 系统 设计 ， 片上 系统 





寺 征 由 其 在 每 个 数据 元 素 上 的 操作 和 在 并 行 运算 中 数据 元 素 的 数量 〈 即 矢量 的 
KE) 决定 。 例 如 ， 一 个 宽度 为 四 的 定点 加 法 操作 包括 两 个 输入 矢量 ， 每 个 都 
包含 四 个 整数 ， 并 产生 一 个 结果 为 四 个 整数 的 矢量 。 

。 将 多 个 简单 操作 组 成 一 个 混合 操作 。 一 个 混合 操作 可 能 有 一 个 或 多 个 输 
入 操作 数 是 固定 的 常数 。 使 用 混合 操作 代替 简单 操作 可 以 减少 代码 量 、 控 制 带 
Bi, 并 可 能 减少 对 寄存 器 堆 端 口 数量 的 要 求 。 并 有 旦 ,混合 操作 的 延迟 可 能 会 低 于 
合并 前 的 简单 操作 的 延迟 之 和 。 

约束 传播 技术 的 应 用 会 产生 有 效 的 计数 算法 。 然 而 这 种 方法 的 使 用 性 仅 限 于 
KY 100 个 节点 的 数据 流 图 。 通 过 在 子 图 中 添加 附加 约束 ， 如 只 允许 单个 输出 或 
者 是 连通 性 约束 ， 搜 索 空间 可 以 显著 降低 。 

识别 输入 和 输出 约束 下 的 扩展 指令 集 可 以 归 为 一 个 整数 线性 规划 问题 。Bis- 
was EAI IEF VO 约束 提出 了 一 种 对 Kernighan - Lin 启发 式 规则 的 扩展 方法 。 
优化 往往 限于 一 个 近似 搜索 算法 或 者 一 些 人 工 约束 (如 LO 约束 ) 以 使 对 子 图 
的 枚 举 容 易 处 理 。 

整数 线性 规划 可 以 用 实际 的 数据 带宽 约束 及 数据 传输 代价 代替 IO 约束 。 因 
为 产生 的 扩展 指令 集 可 能 会 有 无 限 个 输入 和 输出 。 将 数据 带宽 信息 直接 整合 到 优 
化 进程 中 ,或 者 考虑 数据 在 核心 寄存 器 堆 与 定制 状态 寄存 器 "站 之 间 的 传输 代价 ， 
可 以 获得 满意 的 结果 。 含 有 结构 可 见 的 状态 寄存 器 的 基线 机 (baseline machine) 
可 实现 这 种 方法 。 

定制 指令 处 理 器 时 有 很 多 方法 ， 如 技术 感知 方法 。 这 种 方法 包括 一 个 集群 策 
略 ， 可 用 于 评估 基于 FPGA 的 具体 的 定制 指令 查找 表 (Lookup Table, LUT) 的 资 
源 使 用 情况 ， 而 无 需 经 过 整个 综合 过 程 '*i 。 再 如 应 用 程序 感知 方法 ， 在 视频 应 用 
程序 中 时 ， 可 以 利用 合适 的 中 间 表 示 和 循环 的 并 行 性 "5 。 还 有 转化 感知 方法 可 以 
采用 基于 组 合 但 逐步 搜索 源 代 码 转 化 设计 空间 和 指令 集 扩 展 设 计 空 间 的 
PMEU, 


6.5 BRA 


在 各 种 重 构 技术 中 ，FPGA EREILI, Oy TARRE E, EREA 
性 能 在 过 去 的 几 年 里 得 到 了 迅速 的 改善 。FPCA 低 成 本 和 支持 快速 开发 的 特点 使 
得 它 成 为 了 一 些 设计 的 理想 平台 ， 能 满足 对 快速 上 市 有 需求 的 项 目 ， 如 教育 和 学 
生 项 目 。 

下 面 介 绍 支 持 FPGA 及 其 他 可 重 构 设备 的 可 重 构 逻辑 。 可 重 构 逻 辑 由 一 组 可 
重 构 的 功能 单元 、 可 重 构 互 联 资源 ， 以 及 一 个 连接 系统 其 他 逻辑 的 灵活 接口 组 
成 。 下 面 将 介绍 每 个 组 件 ， 并 展示 它们 在 工业 及 学 术 上 的 可 重 构 系 统 中 的 使 用 方 
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法 。 这 里 使 用 的 方法 是 Todman AO) 提出 的 。 

对 人 逻辑 中 的 每 个 组 件 ， 都 要 在 性 能 与 灵活 性 之 间 进 行 权衡 。 一 个 灵活 性 高 的 
架构 通常 较 大 ， 并 且 比 灵活 性 低 的 架构 慢 。 但 灵活 性 较 高 的 结构 能 更 好 地 适应 应 
用 程序 的 需求 。 这 种 灵活 性 与 性 能 之 间 的 权衡 会 影响 可 重 构 系统 的 设计 。 表 6. 2 
给 出 了 可 重 构 结构 和 设备 的 比较 。 由 于 篇 幅 有 限 ， 一 些 相关 的 设备 (如 英国 了 Il- 
ixent Aa! 的 设备 ) 没有 包含 在 内 。 


表 6.2 可 重 构 结构 和 设备 的 比较 




















































































































结构 或 设备 BL BE | 基本 的 逻辑 组 件 | 路 由 结构 ik A AY FE 特 点 
Actel Axcelera- 细 四 输入 复 横向 和 纵向 4Kbit He IVR 22, Mk DE 
司 11 
tor[2] 器 与 反 相 器 路 模式 
Actel IGLOO'?! ， 细 三 输入 逻辑 横向 和 纵向 4Kbit 块 或 1K 基于 闪存 ， 低 功 耗 
ProASIC 4-51 j 功能 路 出 闪存 模式 
Altera Stratix DSP 模块 ，1.6 ~ 
八 输入 自 适 横向 和 纵向 640bit 、9Kbit 
[15] pe 4 : ` “b/s 多 
MUS, Stratix 细 应 逻辑 模块 路 en 8. ae VO, 可 编 
vile! 程 能 
Xilinx Virtex II 四 输入 显示 横向 和 纵向 m p A R, 
[262] yon 4 PASE ASN qP A + ` » Power: 
pe , Virtex 细 ARE 路 由 18Kbit 块 405 处 理 器 ，3.1 ~ 
6.5Gb/s WO 
六 输入 或 者 
Xilinx Virtex 横向 和 纵向 DSP, 6.5Gb/s IO 
2 AT; ee aH ， 
5 [264] , Virtex 6 [265] 细 oo BS FH 36KPi 块 PowerPC 440 处 理 器 
四 输 aE NH [Ta AY [a 
Lattice XP2! 149! 细 Pn 1AE P i 18Kbit He DSP， 内 置 闪存 
SiliconBlue 四 输入 查 横向 和 纵向 低 功 耗 模式 ， 内 置 
y AKbit $ 
iCE651219] 找 表 路 闪存 
o . ALU， 移 位 器 ， SERR 75 个 功能 单元 ，95 
Ma 粗 | 累加 器 ,乘法 ”总线 namm | 个 寄存 器 I H, 
= 器 MEW | OFDM 无 线 应 用 程序 





























注 : OFDM, Orthogonal Frequency-Division Multiplexing， 正 交 频 分 复 











6.5.1 可 重 构 的 功能 单元 


可 重 构 FU 可 以 是 粗 粒 度 的 ， 也 可 以 是 细 粒 度 的 。 细 粒度 FU 通常 可 以 用 一 
位 或 几 位 实现 一 个 功能 。 常 见 的 细 粒 度 FU 都 是 些小 的 LUT， 可 用 于 实现 大 多 数 
工业 FPGA 中 的 逻辑 。 而 粗 粒 度 的 FU， 通常 比较 大 ， 可 能 由 算术 单元 和 逻辑 单 
元 (Arithmetic and Logic Unit, ALU) 甚至 是 较 大 的 存储 空间 组 成 。 本 节 将 更 详 
细 地 描述 这 两 种 功能 单元 。 
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许多 可 重 构 系统 使 用 工业 FPGA 作为 可 重 构 逻 辑 载体 。 这 些 工 业 FPGA 包含 三 ~ 
六 个 输入 LUT, 每 个 LUT 都 可 以 看 成 一 个 细 粒 度 的 FU。 图 6. 3a 给 出 了 一 个 三 输入 
LUT。 通过 移 位 ， 该 功能 单元 可 以 实现 任何 一 种 多 达 三 输入 的 功能 。 显 然 ，LUT 
的 扩展 需要 更 多 的 输入 。 通 常 LUT HAAR, WE 6. 3b 所 示 。 图 6.4 给 出 了 
商业 体系 结构 的 逻辑 块 ， 是 在 两 个 流行 的 FPCGA AW PANE, K 6. 4a 所 示 的 Al- 
tera LAB 是 Altera Stratix 设备 的 一 个 复 ; 美国 Altera 公司 把 这 些 簇 称 为 逻辑 块 阵 
列 (Logic Array Block, LAB)'“!, 图 6.4b 所 示 的 Xilinx CLB 是 Xilinx 27°?! AY 
— Mik; Xilinx 把 它们 称 为 “可 配置 逻辑 块 ” ( Configurable Logic Block, CLB). 
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图 6.3 细 粒 度 可 重 构 FUA 
a) 三 输入 LUT b) LUT 族 
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在 图 6. 4a 中 ， 每 个 标 为 “LE” 的 块 只 表示 一 个 LUT; 而 在 图 6. 4b 中 ， 每 个 标 
H “F (Slice)” 的 块 表示 两 个 LUT, 











































































































通用 线路 通用 线路 
一 | LE iL 
LE 
= LE 
指向 右 端的 LAB 
LE 
来 自 右 端的 LAB = LE 指向 右 端 的 LAB 
LE 来 自 有 端的 LAB 
LE 
LE 
LE 
LE 
a) 
COUT 
F (Slice) m 
F (Slice) <> 
交换 COUT I 
He— > }¥; (Slice) 
l 快速 连 
Kelko Bes 
近 部 件 
CIN 
b) 


图 6.4 商业 体系 结构 的 逻辑 块 
a) Altera LAB! b) Xilinx CLB12%2] 


包含 LUT 的 可 重 构 逻 辑 是 灵活 的 ， 它 可 以 用 来 实现 任何 数字 电路 。 然 而 ， 
与 下 面 要 描述 的 粗 粒 度 架 构 相 比 ， 这 些 细 粒 度 的 架构 面积 较 大 、 延 迟 较 长 DE 
较 高 。 考 虑 到 这 些 结构 通常 用 于 计算 ，FPGCA 厂商 添加 了 一 些 额 外 的 特征 ， 如 进 
位 链 和 传递 链 ， 从 而 可 以 减少 实现 常见 的 算术 与 逻辑 运算 时 的 开销 。 
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虽然 通过 添加 对 常见 功能 的 架构 支持 ， 工 业 FPGA 的 效率 得 到 了 提高 ， 甚 至 
可 以 更 高 、 和 能 入 得 更 大 ， 但 这 些 FU 的 灵活 性 与 可 重 构 性 较 差 。 这 里 有 两 种 包含 
粗 粒度 FU 的 设备 。 
第 一 ， 通 过 加 入 粗 粒 度 模块 ， 许 多 主要 由 细 粒 度 FU 组 成 的 商业 FPGA， 变 得 
日 益 强 大 。 例 如 ， 早 期 的 Xilinx Virtes 器 件 包含 18 x 18 ASR ALFIE AT 。 
在 实现 需要 大 量 乘法 运算 的 算法 时 ， 这 些 租 入 的 单元 可 显著 改善 密度 、 速 度 和 功 
耗 。 但 是 对 不 需要 执行 乘法 的 算法 ， 这 些 模块 很 少 用 到 。 美 国 Altera 公司 的 Stratix 
系列 设备 包含 更 大 、 更 灵活 的 柑 入 式 粗 粒 度 块 ， 即 DSP 块 ， 它 可 以 实现 加 法 和 乘 
法 操作 。 通 过 对 比 这 两 个 器 件 的 灵活 性 与 开销 可 知 ， 美 国 Altera 公司 的 DSP 块 比 
美国 Xilinx 公司 的 乘法 器 更 灵活 ,但 占用 的 芯片 面积 较 大 ， 并 且 运 行 乘法 任务 时 较 
慢 。 最 新 的 美国 Xilinx 公司 的 设备 包含 更 复杂 的 般 入 单元， 叫 DSP48 。 应 该 注意 ， 
这 些 般 入 块 虽然 能 消除 内 部 的 可 重 构 互联 ， 但 相对 固定 的 位 置 会 导致 线路 拥堵 和 
线路 开销 。 而 且 ， 对 于 不 使 用 这 些 欣 入 块 的 应 用 程序 来 说 也 会 产生 开销 。 
第 二 ， 虽 然 上 面 描述 的 商用 处 理 器 既 包 括 细 粒 度 块 又 包括 粗 粒 度 块 ， 但 还 有 
一 些 器 件 只 包含 粗 粒 度 块 。 粗 粒度 结构 如 ADRES 结构 ， 如 图 6. 5071 所 示 。 在 这 
种 器 件 中 ， 每 个 可 重 构 FU 包含 一 个 32 位 的 算术 逻辑 单元 ,通过 重 构 可 以 用 两 
个 小 的 寄存 器 堆 实 现 加 法 、 乘 法 及 逻辑 运算 中 的 任何 一 种 运算 。 显 然 ， 这 种 FU 
ma Rema 22 
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Al6.5 ADRES 可 重 构 FU'"' (Pred 是 一 位 控制 位 ， 它 控制 功能 单元 选择 Srel 还 是 Sre2 ) 
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没有 前 面 描述 的 细 粒 度 FU 灵活 ; 但 是 ， 如 果 应 用 程序 需要 的 功能 与 ALU 的 功能 
相 匹 配 ， 在 这 种 体系 结构 中 ， 这 些 功能 可 以 高 效 地 实现 。 


6.5.2 ” 重 构 互联 


不 管 一 个 器 件 含 有 细 粒 度 FU 还 是 粗 粒 度 FU, 或 者 是 两 者 的 结合 ，FU 之 间 
的 连接 都 要 很 灵活 。 因 此 ， 在 体系 结构 中 需要 考虑 互联 的 灵活 性 与 速度 、 面 积 、 
功 耗 之 间 的 权衡 问题 。 

可 重 构 互 联 体系 结构 可 分 为 粗 粒 度 结构 和 细 粒 度 结构 。 这 两 种 结构 是 基于 线 
路 间 切 换 的 粒度 进行 划分 的 。 图 6. 6 所 示 的 结构 ， 是 两 个 总 线 之 间 的 一 种 灵活 的 
互联 方式 。 在 图 6. 6a 所 示 的 细 粒 度 结构 中 ， 可 以 独立 地 切换 每 根 线 ; 而 在 图 
6. 6b 中 ， 整 个 总 线 作 为 一 个 单元 进行 切换 。 图 6. 6a 所 示 的 细 粒 度 路 由 结构 更 灵 
活 一 些 ， 因 为 每 位 不 必 都 按 相 同 的 方式 路 由 ; 图 6. 6b 所 示 的 粗 粒度 结构 包含 的 
编程 位 较 少 ， 但 功 耗 较 低 。 
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a) b) 


图 6.6 路 由 结构 
a) 细 粒 度 b) 粗 粒 度 





细 粒 度 路 由 结构 通常 用 于 工业 FPGA 设备 中 。 在 这 些 设备 中 ， 多 个 FU 通常 
组 织 成 网 格 模式 ， 并 且 使 用 水 平和 垂直 通道 进行 连接 。 已 经 有 很 多 关于 互联 的 拓 
扑 结构 优化 问题 的 研究 。 

粗 粒 度 路 由 结构 通常 用 在 包含 粗 粒度 功能 单元 的 设备 中 。 图 6.7 给 出 了 两 个 
粗 粒 度 路 由 结构 的 示例 。 图 6. 7a 所 示 的 路 由 结构 在 Totem 可 重 构 系统 '" 中 使 
用 ; 这 种 路 由 结构 设计 灵活 ， 可 以 在 FU 之 间 提 供 任意 的 连接 方式 。 图 6.7b 所 
示 的 路 由 结构 用 于 Silicon Hive 可 重 构 系统 ， 其 灵活 性 较 差 , 但 速度 快 、 面 积 
小 。 在 Silicon Hive 结构 中 ， 只 有 具有 通信 可 能 的 单元 之 间 才 有 连接 。 
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图 6.7 粗 粒 度 路 由 结构 的 示例 
a) Totem 粗 粒度 路 由 结构 '%] b) Silicon Hive 粗 粒度 路 由 结构 i21 





6.5.3 ”软件 可 配置 处 理 器 


软件 可 配置 处 理 器 是 由 美国 Stretch 公司 引入 的 。 它 们 有 一 种 体系 结构 可 以 
将 传统 的 指令 处 理 右 与 可 重 构 染 构 相 结 合 ， 从 而 允许 应 用 程序 动态 地 定制 指令 
集 。 这 种 体系 结构 有 两 种 优点 : 第 一 ， 通 过 开发 数据 并 行 性 、 操 作 专业 化 及 更 深 
的 流水 线 ， 可 获得 较 高 的 性 能 ; 第 二 ， 应 用 程序 设计 者 可 以 使 用 Stretch C 编译 
器 开发 自己 的 应 用 程序 ， 而 不 需要 专业 的 电子 设计 人 员 指 导 。 

软件 可 配置 处 理 咒 由 传统 的 32 位 RISC 处 理 器 及 一 个 可 编程 扩展 指令 集 架构 
(Instruction Set Extension Fabric, ISEF) 组 成 ， 并 有 一 个 ALU 用 于 算术 和 逻辑 运 
算 ， 一 个 浮 点 部 件 ( Floating-Point Unit, FPU) 用 于 浮 点 操作 。 图 6.8 给 出 了 
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图 6.8 Stretch S6 PFA) BCA EAS! (IRAM 表示 ISEF 的 艇 入 式 内 存 ) 
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ISEF 由 一 组 块 组 成 ， 每 个 块 包含 一 组 4 位 的 ALU 和 一 组 乘法 单元 ， 它 们 之 
间 通 过 可 编程 路 由 结构 连接 。 这 种 4 位 的 ALU 可 以 通过 快速 进位 电路 形成 多 达 
64 位 的 ALU。 每 个 4 位 的 ALU 可 以 实现 多 达 4 个 三 输入 的 逻辑 单元 ， 并 在 寄存 
器 中 有 4 位 用 于 扩展 指令 状态 变量 或 者 流水 线 。 

该 ISEF 支持 多 个 应 用 程序 专用 指令 作为 扩展 指令 。 扩 展 指令 集 的 参数 由 32 
个 128 位 的 寄存 器 提供 。 每 个 扩展 指令 可 以 读 3 个 128 位 的 操作 数 或 写 2 个 128 
位 的 结果 。 并 有 足够 多 的 存 取 指 令 可 以 在 寄存 器 、 缓 存 及 存储 子 系统 之 间 传 递 数 
据 ， 数 据 的 位 宽 是 128 位 。ISEF 通过 扩展 指令 集 可 支持 深度 流水 线 。 

除了 上 述 存 取 模 型 还 有 一 组 扩展 指令 可 以 在 ISEF 内 部 定义 任意 的 状态 变 
量 ， 并 存在 寄存 器 中 。 组 内 的 任何 扩展 指令 都 可 以 读 取 和 修改 状态 变量 ， 从 而 减 
少 了 大 量 的 寄存 器 之 间 的 信息 交换 。 

除了 这 种 软件 可 配置 处 理 器 ， 还 有 一 种 可 编程 加 速 问 。 它 由 一 系列 功能 模块 
组 成 ， 这 些 功能 模块 通过 专用 的 硬件 来 实现 。 这 些 功能 块 包括 视频 编码 的 运动 佑 
计 、 用 于 H. 264 视频 的 炳 编码 、 基 于 高 级 加 密 标 准 (Advanced Encryption Stand- 
ard, AES) 和 三 重 数据 加 密 标准 (Triple Data Encryption Standard, 3DES) 的 加 
密 操作 ， 以 及 各 种 音频 编码 (如 MP3 和 AC3 格式 等 ) 。 

为 了 开发 一 个 应 用 程序 ， 程序 员 要 识别 出 需要 加 速 的 关键 部 分 ， 并 使 用 一 个 
叫做 Stretch C 的 变 体 C 语言 写 一 个 或 多 个 扩展 指令 ， 并 作为 函数 在 应 用 程序 中 
访问 。 更 多 有 关 软 件 可 配置 处 理 咒 的 应 用 程序 匹配 问题 将 在 6.6 节 介 绍 。 并 且 ， 
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AK Stretch S5 软件 可 配置 处 理 需 工具 的 研究 将 在 本 书 7. 6. 2 节 和 7.7.2 市 介绍 。 


6.6 可 重 构 设备 上 的 映射 设计 


可 重 构 器 件 中 的 资源 需要 进行 适当 的 配置 才能 实现 一 个 特定 的 应 用 程序 。 下 
E ls acest Me kala 

典型 的 FPGA 工具 流程 图 如 图 6.9 所 示 '”。 在 传统 的 工具 流程 图 中 ， 如 

VHDL 和 Verilog 这 样 的 HDL 被 广泛 用 于 工业 设备 中 ， 用 来 描述 在 FPGA 中 实现 
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图 6.9 典型 的 FPGA 工具 流程 图 
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的 电路 。 这 种 电路 的 描述 在 RTL 级 ， 在 每 个 时 钟 周 期 中 设计 具体 的 操作 。 然 后 
这 些 描述 在 FPGA 布线 之 前 综合 成 网 表 。 

在 综合 的 第 一 阶段 ， 识 别 RTL 级 设计 的 数据 操作 ， 如 控制 逻辑 、 存 储 模 块 、 
寄存 器 、 加 法 器 和 乘法 器 等 ; 然后 加 工 成 基本 的 布尔 逻辑 ， 如 与 、 或 、 异 或 等 。 

接 下 来 ， 对 基本 人 逻辑 门 组 成 的 网 表 进 行 优化 ， 这 种 优化 是 独立 于 FPGA 的 。 
这 种 优化 通常 包括 布尔 表达 式 最 小 化 、 消 除 元 余 逻 辑 、 缓 冲 区 共享 、 重 定时 和 有 
限 状 态 机 编码 。 再 将 优化 的 逻辑 门 网 表 映 射 到 具体 的 FPCA 架构 中 ， 如 Xilinx Vir- 
tex 设备 ,或 者 是 Altera Stratix 设备 。 还 有 基于 具体 架构 的 更 深层 的 优化 ， 如 加 法 
器 进位 链 、 移 位 寄存 器 的 专用 移 位 功能 。 综 合 的 最 后 阶段 把 多 个 LUT 和 寄存 器 进 
行 封装 并 集成 为 图 6.4 所 示 的 模块 。 这 种 封装 与 集成 使 不 同 逻 辑 模块 之 间 连 接 的 
数量 达到 最 少 。 综 合 之 后 ， 映 射 到 网 表 中 的 逻辑 模块 根据 线路 速度 、 可 布线 性 及 
线 长 等 不 同 的 优化 目标 移植 到 FPGA 上 。 逻 辑 模 块 的 位 置 一 旦 确定 ， 不 同 的 J/ 
O00、 逻辑 模块 及 其 他 般 入 单元 之 间 的 连接 就 可 以 映射 在 FPGA 的 可 编程 布线 资源 
上 。 布 线 过 程 决定 了 应 该 用 哪些 可 编程 开关 连接 逻辑 模块 的 IO 端口 。 最 后 ， 所 
有 LO 逻辑 块 和 具体 FPGA 电路 中 的 连 线 资 源 的 可 配置 的 比特 流 就 形成 了 。 

上 面 的 描述 涵盖 了 对 细 粒 度 FPGA 资源 的 映射 设计 。 许 多 可 重 构 器 件 含有 用 
于 运算 和 存储 的 粗 粒 度 的 资源 ( 见 6.5.1 W), BE FPGA 设计 工具 需要 将 这 些 
资源 考虑 进去 。 

为 了 提高 生产 率 ，FPGA 工具 流 中 包括 一 些 高 级 程序 设计 语言 (图 6.9 上 半 
部 分 所 示 )， 如 AutoPilot!” 7 Harmonic”! 及 ROCC!” 。 这 些 语言 和 工具 使 得 应 
用 程序 开发 人 员 即 使 不 具备 技术 实现 方面 的 知识 也 能 进行 设计 。 有 些 编译 器 能 够 
从 源 代码 中 提取 计算 的 并 行 性 ， 来 实现 流水 线 的 优化 。 这 些 工具 通常 会 提高 应 用 
程序 开发 人 员 的 生产 效率 ， 但 会 牺牲 一 定 的 产品 质量 。 然 而 ， 由 于 器 件 容量 和 功 
能 持续 快速 增加 ， 应 用 程序 开发 人 员 的 生产 率 可 能 会 被 优先 考虑 。 

除了 配置 电路 ， 有 些 工具 还 可 以 分 析 电 路 的 延迟 、 面 积 及 功 耗 。 这 些 工具 通 
常 被 用 于 检查 电路 是 否 满足 应 用 程序 开发 人 员 的 要 求 。 

对 于 美国 Stretch 公司 的 软件 可 配置 处 理 器 ,编译 器 既 要 确定 执行 单元 ， 又 
要 确定 ISEF， 如 图 6. 8 所 示 。Stretch C 编译 器 5 的 第 一 阶段 需要 选择 一 种 扩展 
指令 集 并 使 用 各 种 优化 ， 如 常数 传递 、 循 环 展开 及 字 长 优化 等 。 除 此 之 外 ， 还 要 
将 许多 运算 符 加 入 到 平衡 树 中 合适 的 位 置 ; 把 乘法 运算 用 多 次 移 位 和 加 法 实现 ; 
共享 不 同 指令 所 使 用 的 资源 。 然 后 编译 器 产生 两 个 主要 的 输出 昌 令 头 和 延迟 
HE, fi Xtensa 编译 髓 的 寄存 器 使 用 情况 ， 以 及 从 源 代码 中 提取 的 用 于 在 
ISEF 中 中 进行 资源 映射 的 结构 网 表 。 

Xtensa 编译 器 可 以 编译 与 扩展 指令 相关 的 应 用 程序 代码 。 它 使 用 Stretch C 
编译 器 产生 的 程序 头 和 计时 数据 实现 寄存 器 的 分 配 及 指令 流 调 度 的 优化 。 然 后 将 
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这 些 结果 与 ISEF 比特 流 关 联 起 来 。 

在 Stretch 编译 器 中 产生 ISEF 比特 流 的 过 程 ， 与 前 面 介 绍 的 FPGA 工具 流程 
很 类 似 。 主 要 有 以 下 四 个 阶段 ”|. 

。 映射 (Map) 阶段 。 为 Shetch C 编译 器 初始 阶段 提供 的 运算 符 产生 执行 
模块 。 

e 置 位 (Place) 阶段 。 为 Map 阶段 生成 的 模块 分 配 地 址 。 

。 路 由 (Route) 阶段 。 在 网 表 上 执行 具体 的 由 时 间 驱 动 的 路 由 操作 。 

。 重新 定时 (Retime) 阶段 。 移 动 寄存 器 来 平衡 流水 线 每 个 阶段 的 延迟 。 

连接 器 将 应 用 程序 的 组 件 打包 成 一 个 可 执行 文件 ， 该 文件 包含 一 个 ISEF 配 
置 文档 ， 可 用 于 操作 系统 或 运行 时 系统 在 动态 重 构 过 程 中 确定 指令 的 位 置 。 





6.7 特定 实例 设计 


特定 实例 设计 通常 用 于 定制 硬件 和 软件 。 其 目标 是 对 一 个 特定 运算 的 实现 方 
式 进行 优化 ， 主 要 作用 是 提高 速度 、 减 少 资源 的 使 用 、 降 低 功 耗 ， 但 其 灵活 性 
较 差 。 

下 面 介绍 三 种 自动 化 特定 实例 设计 。 第 一 种 是 常数 合并 ， 通 过 计算 、 传 递 静 
态 输入 值 ， 从 而 消除 不 必要 的 硬件 或 软件 。 图 6. 10 所 示 的 特定 实例 的 硬件 设计 
被 实例 化 为 图 6. 11 所 示 的 具有 特定 过 滤 系 数 的 设计 。 只 有 一 个 输入 的 常 系数 乘 
法 器 比 两 个 输入 的 乘法 器 更 小 、 更 快 ， 因 此 其 使 用 效率 更 高 。 















































输入 值 
站 | | 
乘法 器 乘法 器 乘法 器 乘法 器 
| | 结果 
加 法 器 加 法 器 一 一 一 | 加 法 器 



































图 6.10 一 个 FIR 滤波 器 包含 两 输入 的 乘法 器 0 
(支持 可 变 滤波 器 系数 ， 三 角形 表示 寄存 器 ) 
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输入 值 
[ E 
常 系数 常 系数 常 系数 常 系数 
乘法 器 乘法 器 乘法 器 乘法 器 























| | 结果 
加 法 器 和 一 一 一 | 加 法 器 一 一 一 =| 加 法 器 






























































图 6.11 一 个 FIR 包含 单 输入 的 常 系数 乘法 器 (” (支持 具体 实例 的 滤波 器 系数 ) 








可 重 构 逻 辑 能 实现 一 些 专用 设计 ， 并 将 不 同 的 专用 设计 应 用 于 同一 个 设备 上 
从 而 提高 灵活 性 。 在 一 些 应 用 程序 的 实现 中 可 重 构 逻 辑 比 ASIC 更 高 效 。 对 其 他 
应 用 程序 ， 在 一 个 具体 问题 实例 的 优化 设计 中 ， 性 能 的 提高 可 以 使 FPGA 的 性 价 
比 高 于 ASIC。 

特定 实例 设计 的 重要 优势 在 很 多 应 用 程序 中 有 所 体现 。 例 如 ， 在 有 限 脉冲 
响应 (Finite Impulse Response, FIR) WEA, BATT RASA R AE 
可 以 减少 用 于 实现 常 系数 乘法 运算 0] 的 加 法 器 的 数量 。 与 基于 分 布 式 算 法 的 
设计 相 比 ， 特 定 实例 设计 可 以 使 FPGA 片 的 数量 减少 50% ， 用 于 完全 并 行 实现 
的 LUT 数量 可 以 减少 75%。 而 且 ， 这 种 FIR 滤波 器 的 整体 动态 功 耗 会 降 
低 50% 。 

在 运行 时 改变 特定 应 用 程序 的 设计 不 如 改变 电路 的 输入 迅速 ， 因 为 一 个 新 的 
完整 的 或 部 分 的 配置 加 载 进 来 ， 要 花 几 十 甚至 是 几 百 微妙 的 时 间 。 因 此 ， 选 择 一 
个 设计 的 实例 化 方法 很 重要 。 运 行 时 配置 的 相关 讨论 将 在 6. 9 节 展 开 。 

第 二 种 技术 是 功能 修改 。 对 一 个 应 用 程序 实例 ， 使 用 硬件 或 软件 技术 修改 其 
功能 ， 可 以 获得 性 能 与 资源 使 用 率 之 间 的 平衡 ， 以 及 满意 的 程序 运行 结果 。 

字 长 优化 就 是 一 个 功能 修改 的 例子 。 考 虑 到 细 粒 度 FPGA 的 灵活 性 ， 可 以 自 
动 化 实现 一 个 进程 ， 来 寻找 一 个 好 的 定制 数据 的 表示 方法 。 选 择 合适 的 字 长 和 扩 
JE DSP 系统 中 的 每 个 信号 ， 对 自动 化 的 实施 都 很 重要 。 并 不 像 基于 微 处 理 器 的 
实现 那样 使 用 处 理 器 的 硬 连 线 结 构 要 优先 考虑 字 长 ， 基 于 FPGA 的 可 重 构 计算 允 
许 自 定 义 每 个 变量 的 大 小 ， 因 此 可 以 在 数字 准确 性 、 设 计 尺 寸 、 速 度 和 功 耗 方面 
达到 最 优 。 

第 三 种 技术 是 对 结构 进行 修改 ， 包 括 通过 修改 硬件 结构 和 软件 结构 来 优化 具 
体 的 应 用 程序 实例 ， 如 支持 相关 的 定制 指令 。 下 面 将 详细 地 介绍 这 一 方法 。 

表 6.3 给 出 了 特定 实例 设计 说 明 ， 是 针对 以 上 三 种 技术 的 。 特 定 指令 设计 的 
更 多 信息 可 在 其 他 地 方 找到 "1 。 
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表 6.3 特定 实例 设计 说 明 









































技 术 目标 实 Bil 实例 中 的 作用 
常数 合并 | 对 静态 输入 的 值 进行 优化 FIR 过 滤器 0 动态 功 耗 减少 50% 
功能 修改 | 优化 函数 运行 结果 字 长 优化 [21 减少 功 耗 87% 
结构 修改 | 优化 应 用 程序 实例 的 体系 结构 | 定制 指令 处 理 器 ”1 | 速度 提高 72% ， 面 积 增加 39% 


6.8 可 定制 软件 处 理 器 的 一 个 实例 


本 节 介 绍 一 个 含有 定制 指令 集 的 被 称 为 CUSTARD 的 多 线程 软件 处 理 器 :7” 1 。 
它 涉 及 了 前 面 的 一 些 实质 性 内 容 。 即 ， 一 个 指令 处 理 器 怎样 定制 ， 并 通过 修改 指 
令 结构 以 支持 不 同 的 线程 与 定制 指令 ; 确定 重 构 技 术 的 相关 工具 流 。 

CUSTARD 在 同一 个 处 理 器 中 可 以 支持 多 个 上 下 文 。 一 个 上 下 文 是 指 线程 执 
行 的 一 个 状态 ， 尤 其 是 寄存 器 、 堆 栈 及 程序 计数 器 的 状态 。 在 硬件 层面 上 支持 线 
程 有 两 个 好 处 : 第 一 ， 上 下 文 切 换 ( 即 改变 活动 线程 ) 可 以 在 一 个 周期 内 完成 ， 
使 得 单 处 理 器 交错 执行 独立 的 线程 时 开销 很 小 或 没有 开销 ; 第 二 ， 上 下 文 切换 可 
用 于 隐藏 延 迟 ， 否 则 一 个 单线 程 可 能 会 忙 等 。 

支持 多 线程 的 缺点 主要 是 每 个 上 下 文 都 需要 一 些 额 外 的 寄存 器 。 幸 运 的 是 ， 
现在 的 FPGA 有 很 多 片上 存储 模块 可 用 于 实现 较 大 的 寄存 器 堆 。 处 理 器 的 控制 部 
分 需要 添加 额外 的 复杂 逻辑 ， 并 且 当 前 线程 的 状态 必须 在 流水 线 的 每 一 级 中 记录 
下 来 。 然 而 很 多 流水 线 和 功能 单元 在 多 个 线程 之 间 是 共享 的 ， 因 此 在 多 处 理 需 结 
构 中 ， 可 以 考虑 降低 这 些 流 水 线 和 功能 单元 的 面积 。 

CUSTARD 处 理 器 实例 是 使 用 参数 化 的 模型 生成 的 。 图 6. 12 给 出 了 CUSTARD 
微 体 系 结构 ， 包 括 了 参数 模型 的 一 些 关键 组 成 部 分 。 这 种 模型 在 实例 化 一 个 可 综 
合 的 硬件 描述 及 配置 精确 周期 模拟 器 时 都 可 以 使 用 。 

CUSTARD 基础 结构 是 一 个 典型 的 软件 处 理 器 ， 支 持 完 全 旁 路 与 互 锁 的 四 级 
流水 线 。 这 是 一 个 load/store 的 RISC 体系 结构 ， 支 持 MIPS 定点 指令 集 。 它 可 以 
增加 流水 线 ， 同 时 可 以 将 MIPS 指令 操作 码 的 剩余 空间 作为 定制 指令 的 操作 码 。 

CUSTARD 的 定制 需要 四 组 参数 。 第 一 组 包括 多 线程 支持 ， 可 以 指定 线程 的 
数量 及 线程 的 种 类 ， 块 多 线程 (Block Multithreading, BMT) 或 交替 多 线程 ( Inter- 
leaved Multithreading，IMT) 。 第 二 组 包括 定制 指令 集 和 流水 线 执行 阶段 相关 的 数 
据 通路 及 定制 存储 块 。 第 三 组 包括 旁 路 与 互 锁 结构 。 无 论 是 在 分 支 延迟 槽 ， 还 是 
在 加 载 延迟 槽 过 程 中 ， 旁 路 路 径 都 是 必要 的 。 第 四 组 包括 寄存 器 堆 ， 给 出 了 寄存 
器 的 数量 与 寄存 器 堆 的 端口 数 。 

CUSTARD 结构 支持 BMT 和 IMT 两 种 多 线程 结构 。 这 两 种 多 线程 结构 同时 用 
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自 定义 执 
行 单元 控制 
分 支 延迟 
取 指 延迟 

















分 支 旁 路 
图 6. 12 CUSTARD 微 体系 结构 (具有 多 线程 、 寄 存 器 堆 和 参数 的 旁 路 路 径 ) 





于 维持 多 个 独立 线程 的 上 下 文 (寄存 器 、 程 序 计 数 器 的 状态 等 ) 。 线 程 的 类 型 因 
上 下 文 切 换 引起 的 环境 的 不 同 而 有 所 差别 。 

BMT 触发 上 下 文 切 换 ， 是 由 当前 活跃 进程 在 运行 时 产生 的 一 些 事 件 引 起 的 ， 
如 缓存 缺失 、 显 式 的 吞吐 量 控制 或 者 是 一 些 延迟 较 长 的 定制 指令 开始 运行 等 。 当 
只 有 一 个 线程 可 运行 时 ，BMT 处 理 器 就 跟 传统 的 单 处 理 器 一 样 了 。 当 多 个 线程 可 
运行 时 ， 可 以 通过 上 下 文 切 换 隐 藏 所 有 活跃 线程 中 的 延迟 。 上 下 文 切换 在 流水 线 的 
执行 阶段 触发 ， 因 此 最 后 取得 的 一 条 指令 在 新 的 活跃 线程 中 必然 会 被 刷新 和 重 填 。 

IMT 在 每 个 周期 都 执行 强制 的 上 下 文 切换 ， 从 而 导致 多 个 线程 的 交替 执行 。 
IMT 允许 流水 线 的 简化 ， 因 为 如 果 有 足够 多 的 线程 ， 流 水 线 的 一 些 阶段 可 以 保证 
存在 独立 的 指令 。 因 此 ，IMT 可 以 消除 或 者 通过 旁 路 和 互 锁 网 络 的 简化 设计 减少 
流水 线 冲突 。CUSTARD 处 理 器 可 以 利用 这 一 特点 ， 通 过 有 选择 地 消除 旁 路 路 径 ， 
最 终 实现 对 具有 特定 线程 的 处 理 器 的 优化 。 

表 6.4 给 出 了 前 递 路 径 ( 见 本 书 图 $. 12 ) 、 单 线程 中 可 优化 的 互 锁 关系 、 
BMT 参数 及 IMT 参数 的 总 结 ， 包 括 了 每 个 多 线程 结构 中 旁 路 与 互 锁 结构 的 定制 
Wik, BRANCH, ALU 及 MEM 的 旁 路 路 径 如 图 6. 12 所 示 。IMT 列 显示 了 旁 路 和 
互 锁 网 络 中 的 元 素 可 以 怎样 根据 可 运行 线程 的 数量 消除 掉 。 例 如 ， 当 只 有 两 个 线 
程 可 运行 时 ，ALU 前 递 逻 辑 可 以 消除 。 当 两 个 线程 可 以 同时 运行 时 ,任何 进入 
流水 线 ALU 阶段 的 指令 都 独立 于 其 他 ALU 阶段 的 指令 。“ * ”标记 的 情况 指 约 
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束 指 令 的 输入 顺序 ， 需 要 删除 互 锁 关系 ; 相关 参数 可 在 编译 器 中 使 用 ,然后 用 于 
日 令 的 调度 。 
表 6.4 前 递 路 径 ( 见 本 书 图 5.12)、 单 线程 中 可 优化 的 互 锁 关 系 、 
BMT 参数 及 IMT 参数 的 总 结 





关闭 线程 的 数量 BMT=1 IMT 2 IMT=4 
分 支 前 递 v vV 
ALU 前 递 V 











MEM Ñi% 

分 支 延 迟 Ve 

取 数 延迟 Ve v vV 
* 对 结构 中 可 以 改变 编译 器 调度 的 元 素 进行 优化 从 而 减少 冲突 。 


多 重 上 下 文 是 由 多 重 寄存 器 堆 支 持 的 ， 这 些 寄存 器 堆 在 FPGA 上 以 双 端 口 
RAM 的 形式 实现 。 每 个 寄存 器 堆 通过 寄存 器 号 和 线程 的 ID 共同 索引 。 每 个 寄存 器 
堆 是 可 参数 化 的 。 这 种 参数 化 可 以 根据 端口 数 和 每 个 线程 中 寄存 器 的 数量 决定 。 寄 
存 器 堆 中 端口 数 的 增加 使 得 含有 大 量 操作 数 的 定制 指令 可 以 通过 编译 器 选择 。 

将 并 行 命令 式 语言 编译 到 硬件 中 "的 方法 可 用 于 实现 可 参数 化 的 处 理 器 。 
CUSTARD 为 处 理 器 的 参数 化 提供 了 一 个 架构 ， 以 及 一 个 实现 成 硬件 的 方法 。 对 
一 个 给 定 的 应 用 程序 ， 相 关 的 编译 器 会 产生 MIPS 定点 指令 与 定制 指令 ， 从 而 实 
现 CUSTARD 的 优化 。 表 6. 5 给 出 了 一 些 基准 程序 定制 指令 。 


表 6.5 一 些 基准 程序 定制 指令 
定制 指令 (输入 寄存 器 为 ro ~r, 





CESES 



































基准 程序 数量 延迟 / 周 BRAM/B 
fE 程序 立即 数值 为 imm ) 使 用 数量 周期 
LUT(r > >24) +LUT(m > >16) 3 1 1024 
Blowfish 
LUT( [ro > >8]&255) 2 1 
( [ro > >8] &OxFF) I(r; &0xFFOO ) J 1 32 


Color space 


1([r < <8 ]&0xFF0000) 














ne LUT(m ) +r * (ro < <8) 65 2 64 
LUT(r ) +r * ([ro&255] -128) 65 2 
Edge detect LUT (7) +1 +immy ) 3 1 64 
Susan LUT (ro) 31 1 516 
as LUT( 79) ALUT(7, > >8) ALUT 64 1 1024 





(r, > >16) ALUT(r > >24) 
注 : 输入 寄存 器 m ~r 表示 分 配 的 通用 寄存 器 。LUT (a) 为 在 查找 表 中 以 a 为 地 址 在 专用 的 BRAM 
中 查找 。 使 用 数量 表示 通过 指令 在 基准 汇编 代码 中 使 用 的 次 数 显示 重用 的 程度 。 延 迟 表 示 运 行 结 

果 可 用 于 旁 路 或 寄存 器 堆 前 ， 所 需要 执行 的 周期 数 。 
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图 6.13 给 出 了 一 个 具体 应 用 程序 的 CUSTARD 定制 处 理 器 的 工具 流程 图 。 
定制 指令 是 基于 类 亚 指令 (similar sub-instruction) [7 技术 产生 的 。 发 现 定制 指 令 
之 前 ， 在 预 优化 阶段 会 执行 标准 的 源 代码 级 优化 ， 如 进行 循环 展开 ， 从 而 发 现 循 
环 的 并 行 性 。 选 择 定制 指令 之 后 ， 重 新 调度 定制 指令 与 基本 指令 以 使 流水 线 停顿 





达到 最 小 。 这 个 调度 阶段 是 可 以 参数 化 的 ， 可 以 支持 CU 


的 微 结构 变化 。 


STARD 多 线程 模式 引起 





多 线程 : 线程 的 类 型 与 数量 
寄存 器 堆 : 端口 、 位 宽 、 数 量 
存储 系统 : 缓存 大 小 、 体 系 结构 








应 用 程序 

























































































执行 代码 
全 CUSTARD 

FPGA 布 局 布线 
| | i 

, 确定 周期 

F 

自 定义 处 理 器 previa 
图 6.13 一 个 具体 应 用 程序 的 CUSTARD 定制 处 理 器 的 工具 流程 图 




















编译 结果 包括 硬件 数据 通路 ， 以 实现 定制 的 指令 ， 还 包括 在 定制 处 理 器 上 和 定 
制 运 行 的 软件 。 定 制 指令 的 数据 路 径 被 添加 到 CUSTARD 处 理 器 上 ， 然 后 修改 解 
码 逻 辑 ， 将 新 指令 映射 到 不 用 的 指令 操作 码 部 分 的 地 址 空间 上 。 

这 里 有 一 个 基于 SimpleScalar 架构 :2 的 精确 周期 模拟 器 。 这 个 模拟 器 可 在 处 
理 器 硬件 描述 中 直接 修改 ， 并 能 够 模拟 一 个 参数 化 的 存储 系统 。 

在 Xilinx XC2V2000 的 FPGA 上 实现 的 CUSTARD 处 理 器 开发 了 五 个 基准 应 
用 程序 . Blowfish, Colourspace 、AES、DCT (Discrete Cosine Transform, 离散 余 
弦 变 换 ) 和 SUSAN。 结 果 显 示 ， 与 单线 程 处 理 器 相 比 ，IMT4 (四 线程 的 IMT) 
和 BMT4 (四 线程 的 BMT) 面积 分 别 增加 了 28% 和 40% ， 却 可 以 允许 四 个 线程 
交替 执行 ， 并 且 不 需要 软件 开销 。 而 且 与 没有 定制 指令 的 相同 结构 相 比 ， 定 制 指 
令 使 性 能 平均 提高 72% ， 面 积 平均 只 增加 3% 。CUSTARD 使 AEX 的 速度 加 快 
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没有 定制 指令 的 IMT 处 理 器 最 大 时 钟 频率 比 BMT 处 理 器 和 单线 程 处 理 器 分 
别 高 了 41% 和 5%。 时 钟 周 期 的 数量 平均 减少 了 10% 。IMT 处 理 器 通过 交错 执行 
独立 线程 隐藏 了 流水 线 延 迟 。 佑 计 这 种 较 低 的 ( 低 10%) 改善 是 由 定制 指令 产 
生 的 延迟 较 短 引起 的 ( 见 表 6.5)， 在 每 种 情况 下 的 延迟 最 多 只 有 两 个 时 钟 周期 。 
由 于 寄存 器 堆 的 端口 数量 有 限 ， 建 立 延迟 较 长 的 指令 是 不 可 能 ， 所 以 希望 深度 流 
水 线 处 理 器 或 者 定制 的 浮 点 指令 可 以 创建 足够 长 的 延迟 以 利于 这 部 分 性 能 的 提 
高 。 然 而 ，IMT 处 理 器 可 以 通过 消除 ALU 周围 的 旁 路 逻辑 获得 较 高 的 最 大 时 钟 
频率 。 通 过 时 序 分 析 嚣 显示， 这些 ALU 旁 路 逻辑 在 BMT 和 单线 程 处 理 中 是 很 有 
必要 的 。 

















6.9 BY 


重 构 的 动机 有 很 多 : 第 一 ， 分 享 当 前 没有 需求 的 资源 ; 第 二 ， 需 要 进行 升级 
来 文 持 新 功能 、 新 标准 或 者 新 协议 ; 第 三 ， 在 运行 时 调整 硬件 。 

运行 时 的 重 构 为 实现 很 多 应 用 程序 提供 了 可 能 ， 如 自动 化 系统 、 高 性 能 
计算 四 1、 网 络 互 联 " | 、 视 频 处 理 * 和 自 适 应 Viterbi 解码 1 。 下 面 介绍 的 方 
法 是 在 具体 的 技术 中 提取 出 来 的 ， 重 点 讲述 运行 时 重 构 设计 的 开销 分 析 。 


6.9.1 重 构 的 开销 分 析 


修改 一 个 体系 结构 以 适应 具体 的 应 用 程序 ， 其 最 终 目标 是 通过 使 用 具体 的 应 
用 程序 优化 技术 提高 性 能 。 然 而 ， 通 过 修改 体系 结构 获得 的 性 能 的 提高 必须 超过 
重 构 所 付出 的 代价 。 考 虑 一 个 软件 函数 1 ( ) ， 在 一 个 具有 标准 通用 指令 集 的 体 
系 结构 上 运行 要 花 时 间 i,。 修 改 后 ， 文 持 定制 指令 ， 运 行 时 所 需要 的 时 间 是 ta, 
可 表示 为 原来 执行 时 间 的 一 部 分 ， 即 at, ， 其 中 0 <a <1。 对 函数 1 ( ) 运行 所 使 
用 的 设备 进行 重 构 需 要 时 间 1,。 定 义 一 个 可 重 构 比 例 系数 民 通 过 分 析 相 关 的 开销 
判断 对 新 的 体系 结构 进行 重 构 是 否 是 值得 的 ， 有 
pos (6.1) 
titt, at, +t, 
利用 可 重 构 比 例 系数 R 可 以 衡量 重 构 新 体系 结构 所 带 来 的 好 处 。 相 对 当前 
的 实现 方式 来 说 ，R 提供 了 一 个 重 构 后 新 的 实现 方式 的 改善 因子 。R =1 的 点 是 
临界 点 : 如 果 R >1， 重 构 将 是 有 益 的 。 但 必须 注意 ，R =2 并 不 代表 系统 整体 性 
能 提高 两 倍 。 最 大 重 构 比 例 系 数 R ,是 对 绝对 性 能 提高 的 程度 的 评 佑 标准， 计算 
时 不 考虑 重 构 时 间 。 对 一 个 定制 指令 来 说 ，R,,,. 是 RR 的 最 大 可 能 值 。 它 由 下 面 的 
公式 确定 : 
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R max = lim, „R = ta = ma (6. 2) 


可 重 构 比例 系数 R,, 的 最 大 可 能 值 是 对 性 能 可 以 提高 的 最 大 比例 的 测量 标 
准 ， 它 显示 了 一 个 定制 指令 达到 可 重 构 贱 值 的 快速 程度 ， 有 
Rs = lim, oR = (6.3) 
RR,, 为 重 构 的 粒度 和 函数 的 大 小 提供 了 一 个 参考 。 一 个 函数 的 R,, 值 越 大， 
越 容 易 修改 ， 有 























be Ral 
E = Ra (6.4) 
因此 ，R,。 =5 意味 着 原来 指令 执行 速度 是 现在 的 4/5， 重 构 可 以 执行 ; R,, =4 
意味 着 原来 指令 执行 速度 是 现在 的 3/4; 同 理 ，R,, =3， 意 味 着 速度 是 现在 的 2/ 
3， 以 此 类 推 。 
WARS O AYR, =1， 那 么 函数 的 修改 及 随后 的 重 构 是 无 意义 的 。 
可 重 构 比 例 系数 也 可 以 用 FIP 的 时 钟 数 目 描 述 。 考 虑 函数 1 ( ) ， 执 行 需要 
花 志 个 时 间 单 位 ， 执 行 该 函数 要 用 nm; 个 时 钟 周期 ， 每 个 时 钟 周 期 的 时 间 是 Tio 
应 用 程序 执行 一 次 ， 该 函数 被 调用 下 次 。 刀 也 是 这 样 ， 则 有 
t, =n TF 
ta =n TF 
重 构 时 间 可 以 用 重 构 时 钟 周期 T, -A n ARBOR ea. EH Bb Jee] SB 
也 与 平台 相关 ， 而 与 在 可 编程 器 件 上 进行 设计 的 周期 时 间 无 关 。 重 构 所 需要 的 时 
钟 周期 数目 由 完全 重 构 还 是 部 分 重 构 决 定 。 完 全 重 构 时 ，n, 是 一 个 与 具体 可 编程 
右 件 相关 的 常数 ， 部 分 重 构 时 ，n, 会 因 重 构 时 修改 的 次 数 不 同 而 有 所 差异 。 这 里 
有 一 个 因子 7 代表 某 些 重 构 所 引起 的 开销 ， 如 重 构 前 停止 设备 、 重 构 后 打开 设备 
的 开销 。 重 构 时 间 为 











(6.5) 


t, =n. +7 (6.6) 

对 现在 的 可 编程 设备 来 说 ， 打 开 和 关闭 时 间 可 以 忽略 不 计 。 例 如 ， 在 Xilinx Vir- 
tex 设备 中 ， 这 个 值 可 以 小 到 重 构 一 个 最 小 的 原子 可 重 构 单元 所 用 时 间 的 10% 。 

其 他 的 开销 时 间 包 括 保存 与 恢复 处 理 器 的 状态 所 用 的 时 间 。 在 最 极端 的 情况 
下 ， 处 理 咒 的 状态 包括 处 理 器 中 的 所 有 存储 部 件 ， 如 寄存 器 堆 、 流 水 线 中 的 寄存 
器 、 程 序 计数 器 或 者 是 缓存 。 通 过 恢复 处 理 需 的 状态 ， 处 理 需 可 以 返回 到 状态 被 
保存 时 的 环境 中 。 

将 式 (6.5) 与 式 (6.6) ASE (6.1)， 可 重 构 比例 系数 变 为 

bs nj TF 

a tt, B nala +n T, +7 





R=; (6.7) 
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该 式 可 用 于 产生 一 个 曲线 。 它 显示 随 着 下 的 增 大 ，R 的 变化 趋势 。 其 中 ,代表 
函数 O 被 调用 过 的 次 数 。 当 R>1 时 ， 重 构 是 有 益 的 。 关 于 这 种 方法 的 更 多 
HEA LEA Kae M OA val ETS Ab BEE (the adaptive flexible instruction proces- 
sor) 中 的 描述 中 发 现 。 


6.9.2 平衡 分 析 : 重 构 的 并 行 性 


下 面 讲 述 一 个 可 重 构 设 备 的 简单 分 析 模 型 ”1 : 重 构 面 积 越 大 ， 重 构 时 间 越 
长 。 对 于 那些 在 同一 个 任务 中 对 数据 单元 做 重复 独立 处 理 的 进程 ， 可 以 顺序 执行 
或 并 发 执行 ， 增 加 这 些 程 序 的 并 行 性 可 以 减少 处 理 时 间 ， 但 会 增加 重 构 时 间 。 下 
面 的 模型 可 以 帮助 找到 一 个 折 中 的 方案 ， 即 整个 运行 时 间 最 短 的 并 发 度 与 重 构 时 
间 之 间 的 折 中 。 

实现 重 构 主要 考虑 三 个 属性 : 性 能 、 、 存 储 空间 大 小 。 一 个 存储 单元 数 
据 的 运行 时 间 是 + ， 面 积 是 A, ee FES IFC KEW, ISAT BE s 
步 ， 并 行 性 是 p。 

可 以 确定 程序 的 参数 : 需要 的 数据 吞吐 量 是 一 ,,， 一 系列 的 重 构 需要 处 理 m 
个 存储 单元 的 数据 ， 可 重 构 器 件 的 最 大 可 使 用 面积 为 4,,,.， 接 口 的 数据 吞吐 量 
是 Bs,。 

在 易 失 性 的 FPGA 上 进行 设计 ， 需 要 额外 的 空间 用 来 存储 原始 配置 信息 的 比 
特 流 数据 。 使 用 局 部 运行 时 的 重 构 进行 设计 时 ， 还 需要 额外 的 空间 存储 可 重 构 模 
块 的 预 编译 配置 信息 。 考 虑 4 表示 FPGA 片 (如 CLB) 上 一 个 可 重 构 模块 的 大 
小 ; O 表示 具体 设备 的 参数 ， 即 配置 一 个 FPGA 片 所 要 的 字 节 数 ; 可 重 构 模块 的 
局 部 配置 信息 所 需要 的 存储 空间 大 小 We 直接 与 其 面积 4 有 关 : 

V=A0 +h~AO (6.8) 
式 中 ,为 配置 信息 头 部 的 大 小 ,但 大 多 数 情 况 下 ， 可 以 被 忽略 ， 因 为 该 信息 头 
部 通常 很 小 。 

运行 时 重 构 的 时 间 开 销 通常 有 多 个 部 分 组 成 ， 如 调度 时 间 、 保 护 现场 与 恢复 
现场 时 间 及 重 构 进程 本 身 的 开销 时 间 。 考 虑 的 这 种 情况 没有 调度 开销 ， 因 为 需要 
的 模块 直接 被 加 载 ， 也 没有 现场 需要 保存 和 恢复 ， 因 为 一 旦 一 组 数据 信号 通过 ， 
言 号 处 理 模块 就 不 需要 保存 状态 信息 。 重 构 时 间 与 局 部 配置 信息 的 大 小 是 呈 比 例 
的 ， 其 计算 式 如 下 : 























i= 过 (6.9) 
式 中 ，B. 为 配置 数据 的 传输 速率 ， 以 每 秒 传递 的 字 节 数 计算 。 这 个 参数 不 仅 
取决 于 配置 接口 的 数据 传输 速度 ， 还 与 控制 器 及 存储 配置 信息 的 存储 部 件 的 传输 
速度 有 关 。 
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可 以 区 分 哪些 运行 时 的 重 构 现场 的 数据 在 重 构 时 不 需要 缓存 ， 哪 些 需 要 组 
存 。 对 于 后 面 这 种 情况 ， 可 以 通过 重 构 时 间 ， 及 数据 乔 吐 量 $,, 计 算 缓存 大 小 ; 


B = P ppt, = @ 








app (6. 10) 
#6. 6 给 出 了 不 同 功能 和 重 构 时 间 下 的 缓存 大 小 。 可 以 看 到 ， 数 据 在 通过 接 
收 器 时 传输 率 减少 了 。 因 此 ， 调 用 时 重 构 在 接收 器 链 的 末端 更 容易 实现 。 缓 存 大 
小 与 通信 带宽 及 重 构 的 持续 时 间 呈 正比 。 


表 6.6 几 种 不 同 功能 和 重 构 时 间 下 的 缓存 大 小 
































给 定 配 置 时 间 的 缓存 大 小 
J 能 数据 否 吐 量 
100ms 10ms lms 

降 频 转换 ，16bit 800Mbit/s SOMbit 8 Mbit 800Kbit 
降 频 转换 ，14bit 700Mbit/s 70Mbit 7Mbit 700Kbit 
UMTS 解 调 107. 52Mbit/s 10. 75Mbit 1. O7Mbit 107Kbit 
GSM 解 调 7. 58Mbit/s 758Kbit 75. 8Kbit 7. 58Kbit 

UMTS 错误 纠正 6Mbit/s 600Kbit 60Kbit 6Kbit 
GSM 错误 纠正 22. 8Kbit/s 2. 28Kbit 228 bit 22. 8bit 

UMTS” 解密 2Mbit/s 200Kbit 20Kbit 2Kbit 

GSM? 加密 13Kbit/s 1. 3Kbit 130bit 13bit 














@ UMTS: 通用 移动 通信 系统 ，Universal Mobile Telecommunication System, 

@ GSM: 全 球 移动 通信 系统 ，Global System for Mobile Communication, 

缓存 可 以 用 片上 或 片 外 的 资源 实现 。 现 在 ， 大 多 数 FPGA 有 快速 的 能 入 式 
RAM 可 用 于 实现 先进 先 出 缓存 。 例 如 ，Xilinx 的 Virtex-5 FPGA 含有 1 ~ 10 Mbit 
的 RAM 块 。 更 大 的 缓存 必须 用 片 外 存储 资源 实现 。 

运行 时 可 重 构 系 统 的 性 能 由 重 构 时 间 决 定 。 如 果 可 重 构 的 硬件 设备 用 作 软 件 
中 函数 的 加 速 器 ， 尽 管 重 构 会 有 开销 ， 但 整体 性 能 会 有 所 提高 。 这 里 所 考虑 的 情 
况 是 ， 通 过 重 构 来 支持 多 种 硬件 功能 从 而 提高 灵活 性 、 减 小 面积 。 但 这 种 情况 
下 ， 相 对 于 没有 重 构 的 设计 来 说 ， 会 损失 一 定 的 性 能 。 在 处 理 器 上 重 构 所 需要 的 
时 间 通 常 比 上 下 文 切 换 所 需要 的 时 间 长 ， 因 为 有 很 多 配置 信息 需要 加 载 到 设备 
中 。 与 静态 设计 相 比 ， 重 构 设 计 的 效率 了 可 以 这 样 描述 : 

















= = 6. 11 

brecont Mt, +t, t ( ) 

recor p T n+— 
t 


通过 处 理 更 多 的 不 同 结构 之 间 的 数据 ， 或 者 是 提高 重 构 时 间 与 处 理 时 间 的 比 
率 ， 可 重 构 系统 的 效率 变 得 更 高 。 下 面 提出 一 个 考虑 并 行 处 理 时 间 和 重 构 时 间 的 
更 详细 的 分 析 方 法 。 许 多 应 用 程序 可 以 在 小 而 慢 的 顺序 执行 方式 与 大 而 快 的 并 行 


204 计算 机 系统 设计 ， 片上 系统 





或 流水 线 执行 方式 之 间 权 衡 。FIR 过 滤器 、AES 加 密 和 坐标 变化 数字 计算 机 
(Coordinate Rotation Digital Computer, CORDIC) 就 使 用 了 这 种 分 析 方 法 。 

图 6. 14 给 出 了 一 个 需要 四 步 (s =4) 才能 实现 的 算法 的 时 空 图 。 该 算法 与 
处 理 时 间 、 面 积 及 重 构 时 间 有 关 。 每 个 已 知 数 的 处 理 时 间 4 与 并 行 度 p ER, 
可 以 通过 以 下 式 计算 ; 





i, as (6. 12) 
式 中 ,4 ,为 一 个 元 素 的 基本 人 处理 时 间 ; s 为 算法 执行 的 步 数 ; p 为 程序 的 并 行 
度 。 并 行 执行 加 快 了 数据 的 处 理 速度 ， 但 使 重 构 变 得 缓慢 。 因 为 并 行 处 理 所 需 要 
的 面积 比 串 行 处 理 的 大 ， 并 且 重 构 时 间 直 接 与 面积 呈正 比 ， 如 式 (6.9), E 
时 间 i 直接 与 并 行 度 p 呈正 比 ， 这 里 到 .表示 一 个 处 理 单元 所 需要 的 基本 重 构 时 
间 ， 有 

t, =t, eP (6. 13) 
现在 可 以 计算 一 个 规模 为 n 个 数据 项 的 程序 的 运行 时 间 


tp esn 





L otal = nt, + t, = + t, eP (6. 14) 



























































A, t, 


图 6. 14 一 个 需要 四 步 (s =4) 才能 实现 的 算法 的 时 空 图 





图 6. 15 给 出 了 不 同 规模 n 及 不 同 并 行 度 p 的 标准 处 理 时 间 ， 反 映 了 并 行 性 
对 运行 时 间 的 影响 。 考 虑 一 个 算法 ， 其 执行 步 数 * =256， 通 过 观察 可 知 ， 过 滤 
顺 可 以 有 200 甚至 更 多 个 指令 。 每 个 数据 的 处 理 时间 是 标准 的 ， 假 设 每 个 处 理 部 
件 的 重 构 时 间 .是 基本 运行 时 间 志 .的 5000 倍 。 在 不 同 的 应 用 程序 及 目标 设备 
中 ， 这 个 值 是 不 同 的 ， 但 对 当前 设备 来 说 ， 至 少 在 数量 级 上 是 正确 的 。 可 以 看 
到 ， 完 全 串 行 执行 对 一 些 规模 较 小 的 运算 比较 好 。 在 这 种 情况 下 ， 较 短 的 配置 时 
间 比 较 长 的 处 理 时 间 更 重要 。 然 而 由 于 受 配置 时 间 的 影响 ， 整 体 的 运行 时 间 仍 然 
很 长 。 对 于 规模 较 大 的 运算 进行 完全 并 行 设计 比较 好 ， 因 为 运算 时 间 主 要 是 处 理 
时 间 ， 重 构 时 间 所 占 比 例 很 小 。 在 中 等 规模 的 运算 中 ， 可 以 通过 调整 并 行 度 来 优 
化 处 理 时 间 。 

为 了 寻找 最 理想 的 并 行 度 ， 计 算式 (6.14) 的 关于 p 的 俩 导数 : 
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1000 4 n=10 < 
900 4 E 

n =1 000 
800 4 


n=10 000 





每 个 数据 项 的 标准 运行 时 间 
三 
| 











100 4 n =100 000 
o . e © 
T T T T T T T T 
0 1 2 4 8 16 32 64 128 256 


ITE p 
图 6.15 不 同 规模 n 及 不 同 并 行 度 p 的 标准 处 理 时 间 (UTADA s = 256, 假设 1, = 50000, . ) 





ðt t sn 
Se a BS +t, (6. 15) 
op P 


为 了 寻找 最 小 值 ， 令 式 (6.15) 为 0， 解 得 





snis, g 
bi, e 


结果 pu 通常 是 浮 点 数 ， 不 能 用 来 表示 并 行 度 。 为 了 确定 P 的 实际 值 ， 可 根据 
表 6. 7 所 示 指 定 Don 0 





Pop = (6. 16) 


6.7 根据 po 的 值 确定 的 实际 值 














0 <pon <1 完全 串 行 执行 , p =1 
l <Popt <S 选择 s/pe Z 并 且 | Pop 一 五 | 最 小 
SS Popi 完全 并 行 执行 , p =s 





确定 了 使 总 体 运 行 时 间 达 到 最 优 的 并 行 度 之 后 ， 就 可 以 减少 每 个 工作 负载 的 
总 体 处 理 时 间 ， 从 而 使 性 能 达到 最 好 。 但 仍然 有 必要 检查 这 种 实现 方法 是 否 满 足 
了 应 用 程序 对 吞吐 量 B， 的 需求 ， 有 








app 





ip) 一 = D, = PD,, (6. 17) 


最 终 需 要 的 面积 4 必须 小 于 总 共 可 用 的 最 大 面积 4A,,,.。 总 之 ,根据 这 种 模型 实现 
一 个 优化 ， 必 须 按 下 面 的 步骤 执行 

1. 从 应 用 程序 中 得 到 @ «x 240 the 

2 从 使 用 的 技术 中 获得 Duno 

3. 展开 设计 并 确定 和 4。 
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4. 分 别 使 用 式 (6.9)、 式 (6.12)、 式 (6.13) Ht, tper breo 

5. 用 式 (6.16) 计算 pw 并 根据 表 6.7 查找 可 行 值 。 

6. FAK (6.14) 计算 to, FUER (6.17) 检查 吞吐 量 。 

7. 以 第 5 步 中 得 到 的 并 行 度 p 实现 设计 ， 并 检查 实际 的 吞吐 量 是 否 满足 











8. 用 式 (6.10) 计算 缓存 大 小 B， 并 检查 是 否 满足 A4<4,,。 

以 上 方法 适用 于 很 多 应 用 程序 和 目标 技术 ; 使 用 这 些 方法 能 找到 使 性 能 达到 
最 好 的 设计 方案 。 为 了 找到 满足 吞吐 量 需 求 的 最 小 的 设计 ， 可 以 尝试 使 用 较 小 p 
值 并 用 式 (6. 17) 检查 是 否 符合 要 求 。 

这 种 方法 还 可 以 扩展 以 处 理 可 重 构 设计 的 能 源 效 率 问题 ;相对 于 没有 重 
构 的 设计 来 说 ， 一 个 重 构 的 FIR 过 滤器 能 源 利 用 率 会 提高 49% ， 面 积 使 用 率 提 
高 87% 。 














6.10 ”总结 


定制 技术 可 以 以 多 种 方式 用 于 ASIC 和 重 构 技术 中 。 这 里 对 这 些 技术 进行 了 
综述 ， 并 展示 了 特定 实例 设计 和 定制 指令 处 理 需 是 怎样 利用 可 定制 性 的 。 

随 着 技术 的 进步 ， 以 下 两 种 影响 变 得 越 来 越 重 要 : 

1. 集成 电路 封装 成 本 迅速 增加 ,使 ASIC 难以 支撑 。 

2. SoC 设计 与 验证 的 复杂 度 持 续 增长 。 

本 草 所 讨论 的 技术 能 够 直接 处 理 这 些 问 题 : 不 同 程度 的 预 加 工 定制 (prefab- 
rication customization) 可 以 减少 对 ASIC 技术 的 需求 和 设计 复杂 性 。 像 fFPGA 这 样 
的 重 构 技术 以 后 加 工 定 制 (postfabrication customization) 的 形式 提供 了 相当 程度 
的 灵活 性 ， 但 要 牺牲 一 定 的 速度 、 面 积 及 功 耗 。 

定制 与 可 配置 性 不 仅 广 泛 用 于 工业 系统 中 ， 而 且 应 用 于 学 术 研 究 领 域 。 它 们 
在 SoC 设计 重用 1、 可 综合 数据 通路 架构 "| 、 微 处 理 器 动态 扩展 "” 、 可 定制 多 
处 理 器 '” 和 其 他 方面 都 有 新 的 进展 。 而 且 ， 动 态 可 重 构 处 理 器 已 经 开始 在 工业 中 
使 用 ， 如 日 本 松下 公司 的 D-Fabrix、 日 本 日 电 电子 (NEC Electronics) 公司 的 DRP- 
1, 日 本 日 立 (Hitachi) 公司 的 FE-GAL 等 。 据 说 ，ARM 处 理 器 及 其 互联 技 
RT, AN ARM 单元 库 和 AMBA 互联 技术 将 会 在 Xilinx FPGA 体系 结构 中 使 用 与 完 
善 。 毫 无 疑问 ， 未 来 几 年 内 ， 定 制 与 可 配置 性 将 继续 在 电子 系统 中 扮演 重要 角色 。 

















6.11 习题 





1. 从 多 种 应 用 程序 角度 举例 说 明 后 加 工 定 制 的 好 处 。 
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2. 一 些 可 重 构 设 备 支 持 流水 线 互联 。 那 么 流水 线 互联 的 利 次 是 什么 ? 

3. 一 些 FPGA 厂商 通过 生产 结构 化 的 ASIC 实现 FPGA 设计 ， 实 际 上 消除 了 
可 重 构 性 。 它 们 为 什么 要 这 样 做 ? 

4. 早期 的 FPGA 只 包含 同 种 细 粒 度 逻 辑 单元 阵列 ， 而 现在 有 很 多 都 是 不 同 
种 类 的 。 除 了 细 粒 度 逻 辑 单元 ， 现 在 的 FPGA 还 包含 一 些 可 重 构 存 储 模 块 、 乘 法 
器 甚至 是 处 理 器 核 。 怎 样 解释 FPGA 体系 结构 的 这 种 演化 ? 

5. 一 个 机 器 M 的 部 分 指令 集 可 通过 协 处 理 器 C 加 速 ， 并 使 速度 提高 n 倍 。 

(a) 假设 一 个 应 用 程序 P PEE LAR M 上 运行 的 指令 ， 部 分 指令 上 属于 
协 处 理 器 执行 的 指令 。 那 么 在 机 器 M 上 使 用 协 处 理 器 C 其 整体 速度 提高 多 少 ? 

(b) (a) 部 分 的 协 处理 器 C 的 成 本 是 M 的 7 倍 。 考 虑 可 以 用 C 对 一 个 程序 
的 指令 加 速 ， 请 计算 要 使 M 和 C 组 成 的 系统 应 该 比 M 快 了 7 倍 ， 在 协 处 理 器 C 上 
运行 的 指令 所 占 的 比例 最 少 是 多 少 ? 

(c) M 的 性 能 每 个 月 提高 m 倍 ， 那 么 要 经 过 多 少 个 月 ， 才 能 在 没有 协 处 理 
器 C 的 情况 下 ， 执行 (a) 部 分 所 说 的 程序 P 的 速度 与 M 和 C 混合 系统 执行 的 
速度 一 样 快 ? 

6. 怎样 对 式 (6.7) 进行 一 般 化 处 理 ， 从 而 可 以 覆盖 m 种 定制 指令 。 

7. 数据 库 搜 索引 擎 使 用 运行 时 可 重 构 的 散 列 函数 来 减少 要 处 理 的 资源 数量 。 
搜索 引擎 包括 p 个 并 行 运行 的 处 理 器 ;每 个 处 理 髓 可 以 通过 重 构 实 现 其 中 的 一 个 
散 列 函数 。 输 入 数据 的 总 的 单词 数 w 被 分 成 e 个 子 集 ; 每 个 子 集 用 一 个 具体 的 散 
列 函 数 处 理 ， 每 个 字 中 有 一 位 用 于 标记 匹配 是 否 进 行 。 标 记 位 和 相应 的 单词 被 存 
储 在 临时 存储 区 ， 再 用 下 一 个 散 列 函数 在 重 构 后 的 处 理 器 中 处 理 这 些 临 时 数据 。 
每 次 迭代 都 更 新 标记 位 ， 处 理 过 程 一 直 运 行 直 到 数据 被 所 有 的 个 散 列 函 数 处 理 
完 。 令 T, 表示 散 列 函数 处 理 器 中 的 关键 路 径 延 迟 ，7 表示 为 支持 不 同 的 散 列 函 
数 对 处 理 器 重 构 所 需要 的 时 间 。 访 存 需 要 m 个 时 钟 周 期 ， 每 个 单词 平均 由 e 个 
字母 组 成 。 考 虑 最 坏 的 情况 ， 即 所 有 的 散 列 函数 都 要 执行 ， 如 果 一 个 匹配 没有 发 
生 就 终止 匹配 过 程 ， 那 么 分 析 将 会 变 得 很 困难 。 

(a) 处 理 一 个 子 集 的 数据 需要 多 长 时 间 ? 

(b) 处 理 所 有 的 数据 需要 多 长 时 间 ? 

(c) 考虑 每 个 字母 占 4 位 ， 那 么 需要 多 少 个 临时 存储 空间 ? 

8. 为 估算 重 构 造成 的 开销 对 能 源 利用 率 的 影响 ， 可 以 建立 一 个 分 析 模 型 ， 
就 像 6. 9. 2 节 所 述 ， 相 关 应 用 程序 包括 以 下 内 容 : 

。n， 两 次 连续 重 构 要 处 理 的 数据 包 或 数据 项 的 数量 。 

es, 算法 中 程序 的 执行 步 数 。 

一 次 重 构 的 实现 需要 下 面 的 参数 : 

。 4， 实 现 所 需要 的 面积 。 
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。p， 实 现 中 的 并 行 度 。 

et 一 个 数据 包 或 数据 项 的 处 理 时 间 。 

。 t, EERTE, 

。P,， 处 理 时 的 功 耗 。 

e P, RU, Æ P, 的 一 部 分 。 

。 P,， 功 耗 开 销 ， 是 P, 的 一 部 分 。 

© P, EIJE, 

对 可 重 构 器 件 有 以 下 两 个 参数 : 

。 Ga ， 配 置 接口 的 数据 吞吐 量 。 

© @， 每 个 资源 或 单位 面积 的 尺寸 。 

耗 电 量 是 功 耗 和 相关 的 持续 时 间 造 成 的 。 

考虑 计算 引起 的 功 耗 已 与 并 行 度 p 成 正比 ， 存 在 一 个 不 变 功 耗 已 ， 重 构 引 
起 的 不 变 功 耗 P,: 

(a) 处 理 n 个 数据 项 的 计算 功 耗 .是 多 少 ? 

(b) 基于 P, 的 能 源 开销 E, 是 多 少 ? 

(c) 在 重 构 时 间 与 p EEK, EARJE E, 是 多 少 ? 

(d) 每 个 数据 项 由 于 计算 和 重 构 所 需要 的 总 的 功 耗 是 多 少 ? 

(e) 寻找 最 优 的 并 行 度 ， 以 使 每 个 数据 项 消耗 的 功 耗 最 少 。 








7.1 引言 


本 章 描 述 了 各 种 类 型 的 应 用 ， 以 此 来 阐明 SoC 设计 中 的 机 遇 和 利益 的 权衡 。 
同时 ， 也 展示 了 如 何 应 用 前 面 章节 所 描述 的 一 些 技 术 。 

首先 ， 提 出 了 一 种 设计 SoC 的 方法 。 然 后 分 析 了 高 级 加 密 算 法 (AES) 中 的 
儿 个 简单 的 设计 ， 以 此 阐述 之 前 提出 的 技术 。 之 后 ， 将 要 探讨 使 用 分 析 技 术 和 原 
型 技术 的 三 维 计算 机 图 形 学 ， 以 及 这 些 技术 在 一 个 简化 的 PS2 系统 中 的 应 用 。 最 
后 ， 描 述 了 静态 图 像 、 实 时 视频 压缩 方法 及 一 些 其 他 应 用 ， 以 说 明 SoC 的 架构 及 
其 需求 的 多 样 化 。 

这 里 的 讨论 将 需求 和 用 以 表现 满足 需求 的 设计 进行 了 分 离 。 需 求 包括 需要 什 
么 ; 而 设计 包含 了 足够 详细 的 实现 细节 ， 以 便于 评估 设计 是 否 满足 需求 。 








7.2 SoC 设计 方法 


图 7.1 给 出 了 一 种 SoC 设计 方法 ， 它 是 前 面 各 章 原 理 的 简化 的 SoC 设计 方 
法 。 本 书 第 2 章 介绍 了 SoC 设计 中 的 五 大 问题 : 性 能 、 芯 片面 积 、 功 耗 、 可 靠 性 
和 可 配置 性 。 这 些 问题 提供 了 获取 设计 规格 和 运行 时 需求 的 基础 。 原 始 设 计 会 逐 
步 得 到 完善 ， 并 有 望 满足 关键 性 的 需求 。 通 过 处 理 跟 内 存 (第 4 章 )、 互 联 (第 
5 章 ) 、 处 理 器 (第 3 章 )、 缓 存 (第 4 章 ) 及 定制 化 和 可 配置 性 (第 6 章 ) 相 
关 的 问题 ， 原 始 设计 得 以 系统 地 优化 。 这 个 过 程 一 直 重 复 ， 直 到 设计 满足 性 能 
运行 时 的 要 求 。 本 章 会 给 出 更 多 的 详细 说 明 。 

然而 ,使 用 这 种 方法 设计 系统 可 能 会 是 一 个 艰难 的 任务 。 系 统 设计 通常 要 比 
组 件 或 者 处 理 器 设计 更 具 挑 战 性 ， 而 且 经 常 需要 经 过 多 次 迭代 以 确保 (1) W 
足 设计 需求 ; (2) 接近 最 优 ， 包 括 总 成 本 (包括 设计 、 生 产 制造 及 其 他 成 本 ) 
和 性 能 (包括 市 场 规模 及 竞争 力 ) 。 

通常 ， 一 个 设计 开始 于 一 个 最 初 的 项 目 计 划 。 如 本 书 第 1 章 所 述 ， 计 划 包 括 
为 产品 开发 做 预算 分 配 、 时 间 表 、 市 场 估 计 (包含 一 份 相关 竞争 产品 的 分 析 报 
告 )， 以 及 目标 产品 性 能 和 成 本 的 估计 。 如 图 7.2 所 示 ， 下 一 步 是 创建 一 个 原始 
产品 设计 。 此 设计 仅 是 一 个 很 有 可 能 满足 目标 产品 性 能 和 成 本 需求 的 雏形 。 再 进 
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图 7.1 一 种 SoC 设计 方法 
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一 步 分 析 就 能 够 知道 该 设计 是 否 能 满足 需求 。 最 初 的 分 析 中 很 重要 的 一 部 分 是 ， 
完全 理解 性 能 和 功能 需求 及 它们 之 间 的 相互 关系 。 应 用 的 各 方面 均 要 进行 详细 说 











明和 严格 定义 ， 并 做 出 适当 的 分 析 和 模拟 模型 。 这 些 模 型 应 该 为 应 用 提供 一 种 平 
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衡 性 能 和 功能 的 方法 ， 同 时 应 该 提供 设计 实现 技术 ， 这 对 满足 运行 时 间 需 求 是 很 
重要 的 ， 如 表 7. 1 所 示 。 


初始 项 目 计划 


| 初始 产品 设计 
L| 优化 后 的 产品 设计 


设计 和 迭代 








最 终 项 目 计划 


图 7.2 系统 设计 流程 


表 7.1 某 些 视频 和 图 形 应 用 需要 满足 的 运行 时 需求 的 限制 


















































应 实时 性 限制 /( 帧 / 秒 ) Fe 他 限制 
视频 会 议 16 WAD, RAK, AWK 
三 维 图 形 30 图 像 大 小 ， 阴 影 ， 纹 理 ， 颜 色 
需求 和 设计 


需求 分 析 的 输入 通常 是 一 份 来 自 客户 或 市 场 调研 的 需求 规格 ， 输 出 则 经 常 是 
设计 的 功能 需求 规格 。 对 于 大 企业 ， 需 求 说 明 书 可 能 是 为 了 评审 而 详细 书写 的 。 
然而 ， 对 于 小 企业 或 者 刚 起 步 的 企业 ， 可 能 是 以 简短 的 电子 表格 形式 撰写 的 。 不 
论 详细 或 简单 ， 设 计 规 格 都 是 为 了 做 好 设计 的 评审 、 归 档 和 验收 工作 ， 而 且 其 内 
容 必须 清晰 连贯 。 另 外 ， 在 各 个 系统 设计 阶段 ， 精 确 、 可 执行 或 者 图 解 方式 的 说 
明 ， 可 以 用 来 获取 SoC 的 主要 操作 或 者 所 选 功能 的 数据 流 和 控制 流 。 这 些 描述 能 
人 够 帮助 设计 者 理解 功能 需求 。 一 旦 理解 了 功能 需求 ， 这 些 描述 就 可 以 被 映射 到 
SoC 中 主要 部 件 及 其 相互 间 交 互 的 合理 的 实现 中 。 

产品 设计 规格 做 好 之 后 ， 就 要 着 手提 出 一 个 初步 的 系统 设计 ( 见 图 7.3)。 
设计 规格 通常 规定 了 产品 的 大 致 布局 和 编 址 问题 。 例 如 ， 是 将 所 有 元 件 放 到 一 个 
芯片 上 还 是 将 整个 系统 置 于 板 卡 上 ， 以 及 操作 系统 、 访 存 的 总 体 大 小 、 后 备 存 储 
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器 的 选择 。 为 了 满足 电路 需求 ， 将 从 以 下 方面 继续 完善 最 初 的 设计 : 
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图 7.3 三 个 处 理 器 PL, 、P2 和 P3 的 初始 设计 例子 


1. 选择 分 配 内 存 和 后 备 存储 器 。 这 通常 按照 本 书 第 4 章 的 描述 进行 。 

2. 一 旦 内 存 分 配 好 ， 处 理 器 就 被 选择 好 了 。 通 常 选择 用 一 个 简单 基础 的 处 
理 器 来 运行 操作 系统 及 管理 应 用 控制 功能 。 依 据 严格 计算 的 特性 ， 时 间 要 求 严 格 
的 进程 可 以 被 分 配给 专用 处 理 器 〈 如 本 书 第 1 章 和 第 3 草 讨 论 的 VLIW 和 SIMD 
处 理 器 ) 。 

3. 内 存 和 处 理 器 的 布局 大 体 地 定义 了 本 书 第 5 章 所 涉及 的 互联 架构 。 现 在 
需要 确定 的 是 带宽 需求 。 设 计 规 格 和 处 理 器 目标 性 能 主要 决定 了 整体 需求 ， 而 组 
存 可 能 会 在 满足 规范 方面 充当 一 个 重要 的 缓冲 元 件 。 通 常 ， 最 初 的 设计 假定 互联 
带宽 是 足够 与 内 存 带 宽 相 匹配 的 。 

4. 分 析 内 存 因素 ， 评 佑 它们 对 延迟 和 带宽 的 有 影响。 缓存 和 数据 缓冲 器 的 
大 小 按照 满足 内 存 和 互联 带宽 需求 来 选择 。 一 些 细节 将 会 在 后 面 提 到 ， 如 确定 
总 线 延 迟 时 ， 通 党 不 需要 考虑 总 线 竞争 。 到 此 为 止 ， 处 理 器 性 能 模型 设计 就 完 
成 了 。 
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5. 某 些 应 用 需要 进行 外 设 的 选择 和 设计 ， 它 们 的 设计 也 必须 满足 带宽 需求 。 
在 7.5.1 节 和 8.7 节 分 别 给 出 了 儿 个 外 设 的 例子 。7.5.1 节 的 外 设 例子 涉及 数码 
相机 的 JPEG 系统 。8.7 节 的 外 设 例子 是 关于 未 来 自主 SoC 系统 所 用 到 的 无 线 频 
率 和 光 通 信 。 

6. 确定 整体 成 本 和 性 能 的 粗略 估计 。 

初始 设计 完成 之 后 ， 开 始 进入 设计 的 优化 和 验证 阶段 。 这 个 阶段 需要 多 种 工 
具 的 支持 ， 包 括 性 能 分 析 工具 和 优化 编译 器 。 所 有 部 件 及 分 配 都 要 遵照 降低 代价 
(面积 ) 、 提 高 性 能 和 功能 的 原则 重新 评 佑 。 例 如 ， 定 制 化 和 可 配置 性 技术 ， 如 
第 6 章 所 提 到 的 自 定 义 指令 或 者 运行 时 重 配置 ， 可 以 被 应 用 以 提高 灵活 性 或 性 
能 。 再 例如 软件 优化 ， 如 那些 改善 参考 位 置 的 软件 优化 技术 也 经 常 以 较 小 的 硬件 
成 本 换 来 较 大 的 性 能 提高 。 应 用 的 优化 会 影响 到 硬件 和 软件 的 重新 分 配 ， 这 将 可 
能 影响 能 入 式 软件 程序 :2 的 复杂 性 及 实时 性 操作 系统 的 选择 。 

完成 每 项 优化 之 后 ， 都 需要 分 析 该 优化 对 准确 度 、 性 能 、 资 源 利 用 、 功 耗 等 
产生 的 影响 ， 并 且 需 要 对 设计 进行 验证 以 确保 正确 性 不 会 受到 此 次 优化 的 影 
mg") 。 这 些 分 析 和 验证 通常 是 通过 系统 级 电子 设计 工具 ( 见 下 框 ) 和 原型 搭建 
的 支持 来 实现 。 
系统 级 电子 ( Electronic System Level，ESL) 设计 和 验证 

关于 ESL 都 涵盖 哪些 范围 ， 似 乎 还 没有 一 个 标准 的 描述 。 维 基 百 科 对 ESL 
设计 和 验证 的 定义 是 “一 种 新 兴 的 首要 专注 更 高 抽象 级 别 的 电子 设计 方法 学 ”。 
男 一 种 ESL 的 定义 是 ， 在 比较 合理 的 性 价 比 的 基础 上 ， 利 用 适当 的 抽象 化 增加 
对 系统 的 理解 ， 提 高 成 功 实现 功能 的 可 能 性 ”1。 目 前 开发 的 各 种 ESL 工具 都 能 
够 很 好 地 支持 在 算法 描述 级 跨 硬件 、 软 件 边 界 地 开发 系统 。 

当 系统 设计 经 过 儿 次 迭代 趋 于 最 优 之 后 ， 男 一 个 完整 的 项 目 计划 就 出 现 了 ， 
它 可 以 帮助 理解 任何 一 个 对 固定 成 本 规划 所 做 的 修改 ， 以 及 处 理 系 统 集成 和 测试 
相关 的 问题 。 最 后 ， 基 于 最 终 的 设计 对 产品 市 场 进行 评估 ， 也 可 以 对 整体 项 目的 
收益 做 出 评 佑 。 




















7.3 应 用 研究 ， AES 


下 面 以 AES 为 例 ， 来 前 明 如 何 应 用 前 面 所 讨论 的 技术 来 探索 满足 特定 需求 
的 设计 。 
7.3.1 AES: 算法 及 需求 


AFSI91] 有 三 种 规格 : 128 位 (AES-128 ) 192 位 (AES-192) 和 256 位 


214 计算 机 系统 设计 ， 片 上 系统 





(AES-256) 。 从 原始 数据 到 加 密 后 的 数据 ， 整 个 过 程 包括 一 次 初始 轮 , -1 次 标 
准 轮 ， 以 及 一 次 最 终 轮 。 主 要 的 转换 过 程 包括 以 下 几 步 〈 见 图 7.4) : 
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图 7.4 全 流水 AES 架构 7 





。 字 节 替代 ”使 用 专用 的 设计 替换 盒子 (S-BOX) 将 输入 块 以 字 节 为 单位 
进行 转换 。 

。 行 移 位 ”输入 的 字 节 被 重新 排列 成 四 行 。 然 后 根据 行 号 按照 预定 的 步 又 
对 每 一 行进 行 旋转 。 

。 列 混淆 ”通过 基于 有 限 域 CF (2°) 上 的 多 项 式 乘法 对 重新 排列 的 四 行 结 
构 的 每 一 列 进 行 变 换 。 

。 轮 密 钥 加 ”输入 与 每 次 循环 的 密 钥 相 异 或 。 

初始 轮 包 括 一 次 轮 密 钥 加 变换 ; 标准 轮 包 括 以 上 四 步 变换 ;最 终 轮 包括 以 上 
四 步 中 列 混淆 变 换 之 外 的 其 他 三 步 变换 。 另 外 ， 解 密 过 程 就 是 以 上 运算 的 逆 变 
换 。 轮 变换 可 以 并 行 执行 以 加 快 加 密 过 程 。 

除了 以 上 四 个 主要 步 又，AES 还 包括 三 种 不 同 规格 的 块 : 128 位 ( AES- 
128) 、192 位 (AES-192) 和 256 位 (AES-256) 。 块 加 密 的 过 程 被 分 为 不 同 的 
轮 ， 支 持 AES-128 标准 的 设计 共 由 10 轮 组 成 。 

表 7.2 列 出 了 不 同 应 用 对 吞吐 量 的 需求 ， 如 无 线 网 和 网 络 电话 。 要 做 的 是 找 
到 满足 一 种 甚至 几 种 吞吐 量 需求 的 设计 。 
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R72 不 同 应 用 对 吞吐 量 的 要 求 

















应 用 吞吐 量 要 求 应 H Fete BOR 
Wi-Fi 802. 11b 11 Mb/s PAN® 802. 15 TG4 (低速 ) 250 Kb/s 
Wi-Fi802. 11g 54 Mb/s PAN 802.15 TG3 (高 速 ) 55 Mb/s 
Wi-Fi 802. 11i/802. 11n 500 Mb/s VoIP 64 Kb/s 
MAN® 802. 16a 75 Mb/s 思科 PIX 防火 墙 路 由 器 370 Mb/s 














@ MAN; Metropolitan Area Network ， 城 域 网 。 
(2) PAN: Personal Area Network ， 个 人 区 域 网 。 





7.3.2 AES: 设计 和 评估 

初始 设计 首先 从 芯片 尺寸 、 设 计 规 范 、 运 行 时 需求 和 人手 〈 见 图 7.1)。 假 定 
这 些 需求 指定 了 采用 PLCCS68 封装 标准 、24. 2mm x24. 2mm 大 小 的 芯片 。 

任务 是 选择 一 个 既 能 完成 所 需 功能 又 满足 面积 约束 的 处 理 器 。 这 里 选择 
ARM7TDMI， 一 个 32 位 的 RISC 处 理 吉 。 该 处 理 器 的 芯片 规格 有 两 种 : 一 种 是 采 
用 180nm 工艺 s 尺寸 是 0. 59mm? ; 另 一 种 采用 90nm 工艺 尺寸 是 0. 18mm? 。 很 
明显 。 两 种 处 理 需 都 能 够 满足 PLCC68 封装 标准 的 初始 面积 需求 。SimpleScalar 
Bad aie LAA OUT AES 所 开销 的 时 钟 周 期 数 统计 结果 是 16 511 个 时 钟 周 期 ， 
所 以 ， 对 于 180nm 工艺 、 主 频 115MHz (根据 厂商 的 宣传 ) 的 处 理 器 ， 甜 吐 量 是 
[ (115 x 32)/16511 ] Kb/s = 222. 9Kb/s; 对 于 90nm TÆ., i 236MHz 的 处 理 
器 ， 吞 吐 量 是 457. 4 Kb/s, KE, 180nm 的 ARM7 处 理 器 很 可 能 只 够 满足 表 7.2 
中 的 VoIP 应 用 ， 而 90nm 的 ARM7 处 理 吉 除 了 能 满足 VoIP 应 用 还 可 以 支持 PAN 
应 用 和 802. 15TG4 应 用 。 

接 下 来 将 在 不 与 最 初 面 积 约束 冲突 的 基础 上 对 该 SoC 芯片 进行 优化 ， 以 提高 
整个 系统 的 吞吐 量 。 下 面 将 应 用 第 4 章 中 用 到 的 技术 来 改变 缓存 大 小 ， 如 果 Sim- 
pleScalar TRÆ °°) 的 某 种 软件 模型 对 这 种 应 用 有 效 ， 那 么 还 将 使 用 该 工具 集 来 
评估 修改 后 的 效果 。 

使 用 SimpleScalar 模拟 器 模拟 AES 软件 模型 ， 测 试 将 一 个 512 组 的 直接 映射 
一 级 指令 缓存 的 块 大 小 从 32 字 节 扩大 到 64 字 节 后 产生 的 影响 ; AES 的 执行 时 钟 
周期 数 由 16 511 降 到 16 094， 即 降低 了 2. 6% 。 假 设 具 备 基本 配置 不 含 缓存 的 处 
理 需 初始 面积 是 OOK rbe， 一 级 指令 缓存 (LI Cache) 面积 为 8K rbe。 如 果 将 组 
存 容量 加 倍 ， 总 面积 将 由 68K rhe 变 为 76K rbe。 总 面积 增长 比率 为 11% ， 但 跟 
2.6% 的 速率 提高 比 相 比 ， 性 价 比 太 低 。 

ARM7 已 经 是 一 款 流水 线 指令 处 理 器 。 如 表 7.3 所 示 ， 其 他 架构 类 型 ， 如 并 行 
流水 数据 通路 ， 有 很 大 的 潜力 满足 需求 。 这 些 FPGA 方案 可 以 满足 表 7. 2 中 所 有 应 












































© PLCC; Plastic Leaded Chip Carier， 塑 料 引线 芯片 载体 。 
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用 的 吞吐 量 需求 ， 代 价 是 比 ASIC ”更 大 的 面积 和 功 耗 。 另 外 一 种 选择 是 ， 本 书 第 
6 章 提 到 的 通过 自 定义 指令 中 扩展 处 理 器 指令 集 ， 这 里 指 AES 的 自 定义 指令 。 


表 7.3 Xilinx Virtex XCV-1000 上 的 性 能 和 面积 权衡 
























































BE AS GK fh 轮 内 部 流水 全 流 水 
最 大 时 钟 频率 /MHz 47 80 95 
加 密 / 解 密 知 吐 量 (128 位 )/(Mb/s) 521 888 11300 
面积 [ 片 (slice) 数量 ] 1228 2398 12600 
面积 (BRAM 数量 ) 18 18 80 
H (slice) 和 BRAM 使 用 率 10% FI 56% 19% All 56% 103% Fil 250% 














TE: 全 流水 设计 所 需要 的 资源 比 XCV-1000 所 能 提供 的 更 多 。 


需要 注意 的 一 点 是 ， 以 上 讨论 意 在 举例 说 明 在 给 定 的 一 系列 条 件 下 能 得 出 什 
么 样 的 结论 。 在 具体 实践 中 ， 还 要 考虑 其 他 各 种 因素 ， 如 从 测试 集 的 结果 或 者 基于 
SimpleScalar 模拟 器 工具 集 的 应 用 场景 等 得 出 的 数据 究竟 有 多 大 代表 性 。 无 论 什 么 
情况 ， 这 些 分 析 只 用 来 做 出 评估 ， 它 是 仅 用 来 指明 可 行 解决 方案 方向 的 粗略 性 评 
估 。 在 使 用 适当 的 设计 工具 对 设计 进行 细 化 时 ， 这 些 评估 会 得 到 进一步 确认 。 

另外 ， 有 两 点 更 深入 的 思考 。 首 先 ， 如 图 7.4 所 示 ， 一 个 AES 的 设计 可 以 
采用 流水 线 技术 和 FPGA 芯片 来 实现 。 为 了 实现 高 于 21Gb/s 的 吞吐 量 ， 具 体 实 
现时 会 在 FPGA 中 开发 专用 技术 架构 ， 如 块 内 存 和 块 乘法 ”| 。 

第 二 点 ，AES 的 核心 经 常 被 用 作 大 型 系统 的 一 部 分 。 如 图 7.5 所 示 ，AES 核 






































































































































i f i t 
| ! ' ! ! 
一 一 ViaLink FPGA 架构 
MII | MII | | | 
10/100 10/100 AHB AHB APB 16K 
以 太 网 以 太 网 主 从 从 (3) SRAM 
4 32 位 系统 总 线 E? » 
32 位 MIPS 4Kc 
— 低速 外 设 PCI 控 制 器 处 理 器 内 存 控制 器 
16K 16K 
SDRAM 
PCI 32/66 
SRAM 














图 7.5 AES SoC 系统 的 QuickMIPS 架构 框图 "1 
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心 在 QuickMIPS 设备 的 ViaLink FPGA 架构 "I 。 这 个 设备 包含 了 一 个 独立 的 32 
位 MIPS 4Kc 处 理 器 核心 和 很 多 存储 和 接口 单元 。 另 一 个 例子 就 是 应 用 AES 的 涉 
及 安全 哈 希 方法 的 设计 '*] 。 


7.4 MARR: 三 维 图 形 处 理 器 


本 章节 讨论 三 维 图 形 加 速 器 ， 与 索尼 PS2 架构 类 似 .*3?1。 研究 阐明 了 在 得 出 
初始 设计 的 过 程 中 有 以 下 两 个 有 用 的 技术 : 

。 分 析 应 用 被 看 做 一 个 比较 高 层次 的 算法 ， 此 算法 用 来 粗略 估计 如 计算 
量 和 通信 量 的 数据 ， 以 便 形 成 一 个 初始 的 设计 风格 和 设计 组 件 。 

。 原型 利用 通用 的 软件 工具 和 现成 的 硬件 平台 开发 出 应 用 的 一 个 简单 版 
本 ， 如 运用 标准 的 个 人 计算 机 或 者 通用 的 FPGA 平台 。 在 开发 过 程 中 ， 将 会 遇 到 
需要 注意 的 一 些 地 方 ， 如 性 能 瓶颈 ; 同时 ， 它 还 将 帮助 鉴别 出 不 需要 进行 优化 的 
组 件 ， 从 而 节省 开发 时 间 。 

ESL 技术 和 工具 'Y"'% 通 常 可 以 帮助 完成 分 析 和 原型 过 程 。 


7.4.1 分 析 : 处 理 


在 三 维 图 形 学 中 ， 所 有 物体 均 用 三 维 空间 中 的 三 角形 集合 来 表示 ， 并 且 带 有 
影响 图 像 基 本 元 素 (像素 ) ， 以 及 使 物体 更 加 真实 的 亮度 和 纹理 信息 。 这 些 三 维 
信息 被 转化 到 二 维 空间 用 来 观看 。 动 画 包 括 了 一 系列 在 时 间 上 连续 的 像素 帧 。 

图 形 处 理 流水 线 ( 见 图 7.6) 中 主要 有 两 步 : 变换 和 光照 ， 光 栅 化 。 下 面 将 
陆续 介绍 它们 。 

需求 “对 于 变换 和 光照 处 理 ， 假 设 一 帧 包含 了 "个 可 见 的 三 角形 ，! 个 光源 ; 
v 和 71 越 大 ， 物体 的 真实 度 和 复杂 度 越 高 。 为 了 方便 理解 透视 投影 ， 采 用 四 维 坐 
标 系统 来 表示 : 三 维 空间 信息 和 一 维 表示 三 维 图 像 投 影 平 面 位 置 的 信息 。 

在 变换 和 光照 处 理 过 程 中 ， 每 个 三 角形 顶点 都 从 世界 坐标 系 转换 到 观察 坐标 
sh 这 个 过 程 需要 计算 一 次 4x4 AERE; 然后 将 EMER SAAP, mi 

一 次 除法 和 透视 纠正 的 四 次 乘法 。 对 于 每 一 个 顶点 ， 这 个 过 程 可 以 被 近似 为 
24 aoo ( Floatingpoint Multiply And Accumulate，FMAC ) ， 浮 点 除法 
被 近似 当做 四 次 FMAC。 光 照 处 理 额 外 需要 4 x4 次 乘法 来 旋转 顶点 ， 一 次 点 乘 
和 一 些 进 一 步 的 计算 。 对 于 每 一 个 光照 处 理 需 要 近似 为 20 次 FMAC。 所 以 ， 对 
于 每 一 个 顶点 ， o 在 最 坏 情 况 下 ， 每 个 三 角形 都 有 三 
个 不 同 的 顶点 ， 需要 w (72 +601) 次 FMAC。 在 最 好 情况 下 ， 相 邻 三 角形 
RD 一 帧 需要 w (24 +201) 次 FMAC。 
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图 7.6 三 维 图 形 处 理 流水 线 





假设 每 秒 能 处 理 的 三 角形 为 n 个 ， 每 秒 能 完成 
FMAC 计算 的 次 数 为 m Ko FERRI WMR f, n= 
fp, H 





n x (24 +201) Sm&n x (72 +601) (7.1) 
Æ n=50M (1M=10°), ， 即 每 秒 50M 个 三 角形 ， 且 没有 
光源 (1 =0), ABA 1200M <m <3600M; 4% n =30 x 
10*， 即 每 秒 30M 个 三 角形 ， 有 一 个 光源 (1=1), WA 
1320M <m <3960M, 

设计 下 面 将 描述 怎么 得 到 能 满足 需求 的 设计 。 
初始 设计 是 以 图 7.7 所 示 的 简单 结构 为 基础 的 ， 这 个 
结构 在 本 书 第 1 章 已 做 了 介绍 
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提出 的 设计 方案 是 从 情感 引擎 (emotion engine) 中 获得 灵感 的 ， 情 感 引 擎 
包含 了 两 组 处 理 需 ， 如 图 7.8 所 示 。 第 一 组 处 理 带 包括 以 下 几 部 分 : 
e CPU 一 个 双 发 射 、128 




























































































位 、32 个 寄存 器 的 MIPS-II 处 调整 内 存 /O 
FLA o 

o 浮 点 处 理 单元 ( Floating S 革 尖 烛 少 绩 光 玫 
Point Unit, FPU) 支持 基本 的 | Grp e ee. el on 
FMAC 和 浮 点 除法 。 | : 

e VPUO 矢量 处 理 单元 ， 可 = — iz | i 
EE E EA pul [ET] veuol veu 
也 可 以 作为 独立 的 SIMD/VLIW 处 H 
Sa 图 7.8 三 维 图 形 引擎 的 原始 设计 

。 PU 图 像 处 理 单元 ， 解 





码 压 缩 过 的 视频 流 。 

这 些 组 件 使 用 150MHz、128 位 的 总 线 相 连接 。 

第 二 组 处 理 器 包括 以 下 几 部 分 : 

e VPU1 与 VPUN0 一 样 ， 但 只 作为 SIMDZVLIW 处 理 器 工作 。 

e GIF 使 用 128 位 总 线 将 数据 分 流 到 图 像 合 成 器 的 图 形 接口 。 

由 于 VPU0 和 VPUL 都 包含 了 四 个 300MHz 浮 点 乘法 器 ， 那 么 它们 的 性 能 应 
该 为 300MHz x 8 =2400M FMAC/s; 这 个 值 是 符合 前 面 得 出 的 1200M <ms 
3960M, 

其 他 的 组 件 这 里 不 详细 进行 描述 。 例 如 IPU， 它 是 解码 压缩 过 的 视频 流 的 图 
像 处 理 单元 。 

需求 “光栅 化 处 理 需要 将 每 个 二 维 三 角形 进行 扫描 转换 ， 计 算出 每 个 三 角形 
对 应 的 输出 像素 。 这 个 过 程 通常 是 使 用 数字 微分 分 析 器 (Digital Differentid Ana- 
lyzer, DDA) 或 者 另 一 个 画 线 (line-drawing) 方法 。DDA 方法 是 沿 着 三 角形 的 
边 垂直 逐步 进行 的 ， 从 而 使 每 个 水 平 区 间 能 同时 人 处理 。 在 每 一 个 区 间 内 ， 需 要 使 
用 更 多 的 DDA 在 适当 的 位 置 搬入 2Z 值 [用 作 阻 塞 测 试 (occlusion testing) ] Bil 
色 和 纹理 信息 。 这 里 忽略 了 顶点 的 DDA， 把 每 个 像素 的 这 个 处 理 过 程 近似 为 需 
要 (2+21) 次 DDA 操作 。 

设计 若 每 次 DDA 操作 需要 四 条 整数 指令 ， 每 个 像素 的 其 他 操作 (如 比较 
更 新 帧 和 z 缓冲 器 ) 也 需要 四 条 整数 指令 ， 那 么 对 于 每 一 个 处 理 后 的 像素 需要 的 
指令 条 数 为 


























44+8(1 +t) (7.2) 
每 当 一 个 像素 被 演 染 ， 就 要 进行 以 上 步 怠 ， 即 使 这 个 像素 已 经 被 演 染 过 了 。 假设 
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每 帧 输出 。 个 像素 ， 由 于 重合 的 原因 ， 每 个 输出 像素 需要 重复 计算 p 次 ， 那么 每 
帧 需要 的 指令 条 数 为 

(12 +8t) xoxp (7.3) 
在 下 面 的 原型 处 理 中 将 会 用 到 以 上 结果 。 注 意 这 里 已 经 忽略 了 顶点 DDA 计算 的 
时 间 ， 所 以 期 望 有 额外 的 跟 v 相关 的 计算 时 间 ， 但 整体 的 计算 时 间 主 要 是 由 每 个 
像素 的 处 理 时 间 组 成 的 。 


7.4.2 分 析 : 互联 


三 维 图 形 处 理 流水 线 有 两 个 主要 的 任务 间 的 逻辑 通信 通道 : 从 建立 /管理 任 
务 传递 到 变换 任务 的 三 维 三 角形 列表 ; 从 变换 任务 传递 到 泻 染 任务 的 二 维 三 角形 
列表 。 这 两 个 通道 本 质 上 是 无 向 的 : 一 旦 一 个 任务 将 一 个 三 角形 集合 (二 维 或 
三 维 ) 传递 到 下 一 个 阶段 ， 除 了 如 状态 指示 标志 的 明显 的 数据 流 信 号 ， 在 通道 
相反 的 方向 上 没有 其 他 的 实质 的 数据 流 。 

需求 “在 第 一 个 通道 ( 即 介 于 世界 管理 和 变换 之 间 的 通道 ) 中 ， 所 有 的 三 
维 坐 标 由 三 个 单 精度 浮 点 数组 成 ， 需 要 4 字 节 x3 =12 字 节 。 最 小 的 三 角形 ， 即 
每 个 三 角形 仅 包 含 三 个 坐标 ,需要 3 x 12 字 节 =36 字 节 。 然 而 ， 大 多 数 情况 下 ， 
还 需要 额外 的 信息 ， 如 纹理 信息 和 亮度 信息 。 为 了 支持 亮度 信息 ， 每 个 顶点 足以 存 
储 曲 面 法 线 的 。 这 就 代表 了 无 论 光 源 有 几 个 的 ， 每 个 顶点 的 大 小 均 为 3 x (12 + 
12 x min(1,1) )。 对 于 每 个 顶点 ,纹理 信息 需要 额外 的 二 维 纹理 坐标 存储 空间 ; 
假设 纹理 坐标 是 浮 点 数据 类 型 ， 每 个 顶点 每 种 纹理 信息 需要 8 字 节 。 对 于 nn 个 可 
见 的 三 角形 ， 此 通道 的 总 带宽 为 

3n x (12 +12 xmin(/, 1) +82) (7.4) 
PM, Bi n =50x10°, 1=0, t=1， 带 宽 需 求 则 为 3GB/s; 假设 n=30 x 10°, l= 
1, t=1， 则 带宽 需求 则 为 2. 88GB/s。 

在 第 二 个 通道 中 ， 每 个 点 处 于 屏幕 坐标 系 中 ， 所 以 每 个 点 以 两 个 16 位 整数 
表示 的 。 除 此 以 外 ， 每 个 像素 还 需要 深度 信息 ， 而 深度 信息 是 以 更 大 的 精度 来 存 
储 的 ， 所 以 每 个 顶点 的 总 大 小 为 4 字 节 。 假 定 使 用 了 亮度 信息 ， 则 顶点 也 需要 颜 
色 强 度 信息 ， 即 每 个 通道 1 字 节 ， 或 者 每 个 顶点 近似 4 字 节 : 4+4min (l, 1), 
在 光栅 化 时 ， 每 个 纹理 信息 独立 应 用 ， 所 以 需要 保留 4 字 节 的 坐标 信息 。 所 以 产 
生 的 第 二 通道 的 总 带宽 需求 为 

3nx (4+4xmin(1, 1) +4t) (7.5) 
ORE, Bit n =50 x 10°, 1 =0, t=1, 带宽 需求 则 为 1.2GB/s; 假设 n=30 x 
10°, 7=1, t=1， 则 带宽 需求 则 为 1. 08GB/s。 

设计 如 图 7.8 所 示 ， 互 联 总 线 为 128 位 。 由 于 128 位 工作 在 150MHz 的 总 
线 的 最 高 传输 速率 为 2 4CB/s， 这 只 满足 了 第 二 个 通道 的 带宽 需求 而 不 能 满足 第 
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一 个 ， 因 此 需要 增加 一 个 额外 的 专用 的 接口 供 泻 染 引擎 使 用 。 


7.4.3 ”原型 技术 


三 维 演 染 器 原 型 是 使 用 C 语言 编写 的 。 此 原型 融合 了 世界 坐标 管理 阶段 、 
变换 阶段 和 基于 z 缓冲 器 的 泻 染 器 。 世 界 坐 标 管理 阶段 创建 三 角形 的 随机 模式 ，; 
变换 阶段 将 三 角形 投影 到 二 维 三 精度 浮 点 平面 ; z 缓冲 器 演 染 器 采用 了 整数 
DDA。 演 染 器 的 参数 可 以 分 为 以 下 几 种 .: 

。 三 角形 的 个 数 ; 

。 三 角形 的 大 小 ; 

。 输出 的 高 度 和 宽度 。 

通过 调整 以 上 参数 ， 可 以 选择 性 地 调整 如 。、v Mp 等 参数 。 例 如 ， 通 过 增 
加 三 角形 的 大 小 可 以 调整 参数 p， 因 为 这 样 可 以 增加 每 个 三 角形 与 其 他 三 角形 重 
ERILE., 

图 7. 9 给 出 了 当 输 出 像素 个 数 增加 时 Athlon 1200 上 各 阶段 执行 时 间 的 变化 。 
正如 预期 所 示 ， 在 创建 阶段 和 变换 阶段 ， 随 着 输出 像素 个 数 的 增加 ， 执 行 时 间 没 
有 明显 的 变化 。 相 反 ， 在 演 染 阶段 执行 时 间 随 着 输出 像素 的 个 数 线性 增长 。 拟 合 
直线 具有 很 好 的 线性 相关 系数 : 0. 9895。 光 栅 化 时 间 和 像素 个 数 之 间 的 拟 合 线性 
关系 由 式 (7.3) 给 出 : :=ox5x10-* +0.0372。0. 0372 的 大 偏 移 是 由 在 分 析 这 
一 节 提 出 的 每 个 三 角形 的 建立 时 间 引 起 的 。 基 于 此 原型 ， 可 以 感觉 到 这 种 影响 是 
合适 的 ， 因 为 它们 比 预期 的 更 有 意义 。 


























0 18 ARENA 
Ve aoe 变换 阶段 -z4 


a PERME a 
ARER CRETE) 2 




















每 阶段 时 间 /s 




















0 500 1000 1500 2000 2500 3000 
每 帧 千 像 素数 


Al7.9 当 输 出 像素 个 数 增 加 时 Athlon1200 上 各 阶段 执行 时 间 的 变化 





根据 式 (7.2) ， 在 没有 纹理 信息 (+t =0) 的 条 件 下 ， 每 个 输出 像素 的 指令 
数 为 px12。 在 本 次 实验 中 p =1.3， 所 以 每 帧 的 指令 数 为 13. 6。Athlon1200 的 官 
方 性 能 为 1400MIPS (Million Instructions Per Second， 百 万 条 指令 每 秒 ) ， 依 据 此 
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模型 每 个 额外 的 像素 需要 FP 
10°*s 和 实际 观测 到 的 5 x 108s, 可 以 看 出 后 者 几乎 是 前 者 的 5 倍 。 产 生 这 个 错 
误 的 主要 原因 是 原型 的 未 优化 本 质 和 模型 中 的 近似 处 理 。 

图 7.10 和 图 7.11 给 出 了 变换 阶段 在 不 同 FPU 数量 条 件 下 的 性 能 ， 此 测试 
使 用 PISA 模拟 器 :2 完成 。 当 使 用 四 个 乘法 器 时 ， 性 能 得 到 了 显著 提高 ， 即 使 使 





xl0)s=1.1xl10s。 对 比 预 测 的 1.1x 
























































用 超过 4 个 乘法 器 只 带 来 了 很 小 的 收益 。 这 就 表示 一 个 能 同时 处 理 四 个 浮 点 运算 
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到 7.10 对 比 初 始 版 本 和 完全 展开 版 本 ， 不 同 数量 浮 点 乘法 器 条 件 下 图 形变 换 阶 段 的 
执行 时 间 变 化 〈 队 列 长 度 、 发 射 宽度 和 提交 宽度 都 固定 为 相对 较 大 的 恒定 值 ) 
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图 7.11 对 比 初始 版 本 和 完全 展开 版 本 ， 不 同 数 量 FPU (乘法 器 /ALU) 条 件 下 图 形变 换 
阶段 的 执行 时 间 变 化 队列 长 度 、 发 射 宽度 和 提交 宽度 随 着 FPU 数量 而 变化 。 图 中 
也 给 出 了 处 理 器 的 全 部 近似 面积 和 FPU 的 近似 面积 ， 单 位 为 rbe 
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的 VLIW 或 者 SIMD 处 理 器 将 会 是 高 效 的 。 图 中 也 给 出 矩阵 乘法 循环 展开 的 情况 
下 的 性 能 ， 而 不 是 使 用 双重 从 套 循 环 来 实现 。 展 开 循环 更 好 地 利用 了 处 理 器 的 
FPU， 但 是 所 得 到 的 加 速 比 需要 的 开销 也 大 。 最 后 ， 图 7. 12 给 出 展开 变换 阶段 
不 同 数量 浮 点 乘法 器 和 ALU 面积 和 性 能 增长 的 对 比 8 个 浮 点 乘法 器 和 16 个 ALU 
情况 具有 单位 面积 的 最 高 性 能 。 
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图 7. 12 ”展开 变换 阶段 不 同 数 量 浮 点 乘法 占 和 ALU 在 面积 和 性 能 增长 的 对 比 
(最 大 性 能 面积 比 所 对 应 的 配置 为 8 个 浮 点 乘法 需 和 16 个 ALU) 




















本 节 论 证 了 应 用 模型 在 具有 大 量 计算 特征 的 三 维 引 苟 应 用 中 提供 了 非常 有 用 
的 预测 功能 。 尽 管 由 于 估计 指令 数 的 原因 导致 了 预测 时 间 不 准确 ,但 是 它们 表现 
出 来 的 整体 趋势 依然 可 以 作为 未 来 开发 的 依据 。 这 个 简单 分 析 唯 一 没有 预测 的 是 
随 着 三 角形 个 数 的 增加 光栅 化 时 间 的 增长 趋势 。 





7.5 应 用 研究 ， 图 像 压 缩 


帧 内 操作 在 如 JPEG 的 静态 图 像 压 缩 方 法 和 如 MPEG, H. 264 等 视频 压缩 方 
法 中 都 很 常见 。 它 们 包括 色彩 空间 转换 和 炉 编 码 ( Entropy Coding, EC), 视频 
压缩 方法 通常 还 包含 了 帧 间 操 作 ， 如 利用 连续 视频 帧 的 相似 性 的 运动 补偿 ( Mo- 
tion Compensation，MC)。 这 将 在 7.6 节 进 行 说 明 。 





7.5.1 JPEG 压缩 


JPEG 压缩 方法 对 每 个 像素 使 用 了 24 位 ,分 别 对 应 红 、 绿 和 蓝 (Red Green 
and Blue, RGB) 各 8 位 。 它 可 以 实现 有 损 和 无 损 压缩 。 压 缩 过 程 主要 有 以 下 
Ze, 

第 一 步 ， 色 彩 空间 转换 。 图 像 从 RGB 色彩 空间 转换 到 其 他 的 色彩 空间 ， 如 
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YCbCr, Y 分 量 代表 了 像素 的 亮度 ，Cb 和 Cr 分 量 代表 了 色 度 或 色彩 。 相 比 Cb 和 
Cr 分 量 ， 人 眼睛 对 YY 分 量 更 加 敏感 ， 所 以 对 Ch 和 Cr 分 量 采 用 了 缩减 像素 采样 。 
JPEG 中 缩减 像素 采样 比 可 以 为 4 : 4 : 4 (无 缩减 )、4 : 2 : 2 (水 平方 向 减 半 ) 
和 常见 的 4 : 2 : 0 (水 平和 垂直 方向 均 减 半 )。 对 于 压缩 处 理 的 后 半 部 分 ，Y、 
Cb 和 Cr 采用 相似 的 方式 分 别 单独 处 理 。 这 三 个 分 量 组 成 了 图 7. 13 所 示 的 输入 
部 分 。 
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图 7.13 JPEG 压缩 的 模块 图 。 其 中 色彩 空间 转换 没有 给 出 











BZF, AMAIA (Discrete Cosine Transform，DCT)， 如 图 7.13 所 示 。 
图 像 像 素 的 每 个 分 量 (Y，Cb，Cr) 被 划分 为 8 x8 的 块 ， 使 用 二 维 正 向 离散 余 
改变 换 (DCT, FAY) 将 每 块 乘 以 8 x8 的 和 矩阵， 从 而 将 此 块 转换 到 频 域 中 。 
由 于 低频 像素 代表 了 图 像 的 大 部 分 信息 ， 所 以 可 以 使 用 量化 ( 另 一 个 矩阵 运算 ) 
来 减少 高 频 的 信息 。 

PZF, Mm, MRE MEEA ARRIT AE A KERK 
据 按 “Zigzag” 顺序 进 行 排 序 ， 从 而 使 低频 分 量 排 在 前 面 ; 然后 使 用 行程 编码 
(Run-Length Coding, RLC) 算法 将 相近 频率 的 数据 集合 到 交流 分 量 ， 使 用 差分 
脉冲 编码 调制 (Differential Pulse Code Modulation, DPCM) 将 相近 频率 的 数据 集 
合 到 直流 分 量 ; 最 后 使 用 哈 夫 曼 编码 或 者 算术 编码 处 理 以 上 得 出 的 数据 。 尽 管 算 
术 编 码 能 得 出 更 好 的 结果 ， 但 是 编码 过 程 也 很 复杂 。 

H TIRARE, UZY kxk 离散 余弦 变换 为 例 ， 需 要 计算 . 








图 像 数 据 装载 ,，k 次 系数 数据 装载 ,次 乘 累 加 ， 以 及 一 次 数据 存储 。 所 以 ， 对 
于 每 个 像素 ， 总 计 需 要 3k +1 次 操作 。 因 此 ， 对 于 各 xk 块 的 行列 分 解 的 DCT, 
需要 2k? (35+1) 次 操作 。 
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对 于 帧 率 为 ,Ps 的 nxn 分辨 率 的 情况 ， 所 需要 的 操作 次 数 为 2fr (3h +1). 
两 种 常见 的 格式 为 通用 中 间 格 式 (Common Intermediate Format, CIF) 和 四 分 之 
一 通用 中 间 格 式 (Quarter CIF，QCIF) ， 分 别 对 应 为 352 x288 像素 和 176 x 144 
像素 的 分 辨 率 。 

对 于 色彩 空间 为 YCbCr， 帧 格式 为 QCIF， 采样 率 为 4:2 :0, 459448 x8 
的 块 ， 帧 率 为 15f/s 的 情况 ， 所 需要 的 总 操作 次 数 为 2 x 15 x594 x8x8x 
(24 +1) =28. 5MOPSS。 对 于 CIF 帧 格式 ， 需 要 114MOPS 。 

通常 ， 无 损 压 缩 能 达到 三 倍 的 压缩 效果 ， 而 有 损 压缩 可 以 高 达 25 倍 的 压缩 


7.5.2 实例. 数字 静态 相机 中 的 JPEG 系统 


数字 静态 相机 (digital still camera) 的 一 个 典型 的 图 像 处 理 流水 线 如 
图 7. 14° 8) Stas, TMS320C549 处 理 器 接收 到 SDRAM 的 16 x 16 像素 块 后 开始 进 
和 人 图像 处 理 流水 线 。 
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图 7.14 静态 相机 "3 的 模块 图 
@ CFA; Color Filter Aray， 彩 色 滤 波 阵列 。 








由 于 TMS320C549 处 理 器 拥有 一 个 32K 的 16 位 RAM 和 一 个 16K 的 16 位 的 





© MOPS; Million Operations Per Second， 每 秒 百 万 次 操作 。 
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ROM, mi 16 x 16 像素 块 所 需要 的 存储 空间 很 少 ， 所 以 所 有 的 图 像 处 理 流 水 线 操 
作 都 可 以 在 片上 执行 。 这 样 ， 处 理 时 间 将 会 保持 很 短 ， 因 为 不 需要 进行 延迟 较 长 
的 外 部 访 存 操作 。 

此 处 理 器 的 性 能 高 达 100MIPS， 且 功 耗 较 低 ， 仅 有 0.45mAAMIPS。 表 7.4 
给 出 了 TMS320C54X 处 理 器 的 性 能 ， 包 括 了 图 像 处 理 流 水 线程 序 各 个 不 同 阶 
段 所 需要 的 精确 的 时 钟 拍 数 。 对 于 每 个 像素 ， 包 含 了 整个 JPEG 的 图 像 处 理 流 
水 线 需要 大 约 150 拍 ， 或 者 相当 于 一 个 100MIPS, 100MHz 的 处 理 器 执行 了 


150 条 指令 。 


$7.4 TMS320C54X 的 性 能 528] 





























E 3 拍 /像素 
预 处 理 ， 如 捕获 、 白 平衡 22 
色彩 空间 转换 10 
插值 41 
边缘 增强 ， 伪 彩色 抑制 27 
4 : 1 : 1 抽取 ，JPEG 编码 62 
共计 162 











一 个 工作 在 100MHz 的 TMS320C54x 处 理 器 能 够 在 1. 5s 内 处 理 1 张 百 万 像素 
电荷 耦合 器 件 (Charge Coupled Device, CCD) 图 像 。 这 个 处 理 需 支持 2s 的 拍摄 
延迟 ， 其 中 包含 了 将 数据 从 外 部 存储 传输 到 片上 存储 。 数 字 相机 同样 必须 支持 用 
PE LCD 屏幕 上 或 者 是 在 一 个 外 部 的 电视 显示 器 上 显示 拍摄 的 照片 。 由 于 拍摄 
的 照片 存储 在 闪存 上 ， 所 以 SoC 还 需要 一 个 回 显 程序 。 

假如 图 像 是 以 JPEG 比特 流 的 方式 存储 ， 回 显 程序 将 它们 进行 解码 ， 并 缩放 
到 合适 的 分 辨 率 ， 然 后 将 它们 显示 在 LCD 屏幕 或 者 外 部 电视 显示 器 上 。 工 作 在 
TMS320C54x 处 理 器 上 的 回 显 程序 能 够 在 100 拍 内 处 理 一 个 像素 ， 即 支持 了 百 万 
级 像素 图 像 的 1s 回 显 速度 。 

此 处 理 器 需要 1.7KB 的 指令 存储 和 4. 6KB 的 数据 存储 来 支持 图 像 处 理 流 水 
AA JPEG 标准 的 图 像 压 缩 。 完 整 的 图 像 处 理 流 水 线程 序 存储 在 片上 ， 这 就 减少 
了 外 部 访 存 的 次 数 ， 从 而 使 应 用 慢 速 外 存 成 为 可 能 。 这 种 结构 不 仅 能 提高 性 能 ， 
而 且 能 降低 成 本 和 提高 能 效 。 

近年 来 ， 数 码 相 机 中 的 芯片 需要 额外 支持 图 像 压 缩 、 视 频 压 缩 、 音 频 处 理 和 
无 线 通 信 '*1。 图 7.15 给 出 带 视频 、 音 频 和 网 络 处 理 能 力 的 相机 芯片 模块 图 ， 
包括 了 这 种 芯片 的 几 个 关键 部 分 。 
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控制 和 处 理 
REN -e 
视 G = 
电动 机 areal | | sy | | 显示 
镜头 
日 
麦克 风 网 络 接口 
扬声器 
MP3 

音频 控制 用 户 接口 

ce ali 用 户 输入 
电源 
电池 

电源 控制 | | 内 存 | | 文件 系统 | | | 存储 SD 下 
图 7.15 带 视 频 、 音 频 和 网 络 处 理 能 力 的 相机 芯片 模块 图 





7.6 应 用 研究 : 视频 压缩 


表 7. 5 给 出 了 一 些 常见 的 视频 格式 ， 包 括 了 各 种 不 同 应 用 中 的 常用 视频 格式 
及 相关 的 压缩 方法 ， 如 MPEGI, MPEG2 和 MPEC4。 视 频 质 量 是 由 比特 率 和 视频 
分 辩 率 决定 的 ， 比 特 率 越 高 ， 视 频 分 辩 率 越 高 ， 就 代表 了 视频 质量 越 好 ， 但 同时 
意味 着 更 高 的 带宽 需求 。 











75 一 些 常见 的 视频 格式 





























HDDVD HDTV AVI DivX MOV 
格 式 VCD SVCD DVD ae 
( WMVHD) XviD WMV Quick-Time 
分 辩 率 352 x 240 480 x480 | 720 x 480 * 1920 x 1080 * 640 x 480 * 640 x 480 * 
NTSC/PAL) 352 x 288 480 x576 | 720 x576* 1280 x 720 * 
sige MPEG4 
视频 压缩 MPEC2 ， MPEG2 mas 
i MPEG1 MPEG2 MPEG4 ( 源 于 Sorenson 
方法 MPEGI ( WMV-MPEG4 ) f 
Media) 
视频 20Mb/s" 
Ne 1150 Kb/s | 2000 Kb/s* | 5000 Kb/s* 5 1000 Kb/s* 1000 Kb/s‘ 
比特 率 (8Mb/s' ) 
每 分 钟 . 10 ~20 30 ~70 150 MB/min* . 
SE 10 MB/min . . 4~10 MB/min |4~20 MB/min 
数据 量 MB/min MB/min (60 MB/ mint ) 














( 源 于 : http: //www. videohelp. com/sved ) 
* 近似 分 辨 率 ， 可 以 高 于 也 可 以 低 于 此 值 。 
+ 近似 比特 率 ， 可 以 高 于 也 可 以 低 于 此 值 。 
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另 一 组 压缩 方法 有 H. 261, H. 262 、H. 263 和 H. 264 ， 其 中 有 一 些 与 MPEG 
方法 是 相关 的 。 例 如 ，MPEG2 与 H. 262 是 一 样 的 ，H. 264 与 MPEG4/Part10 是 一 
样 的 。 通 常 越 新 的 方法 ， 如 H. 264 ， 提 供 了 越 高 的 视频 质量 和 越 高 的 压缩 比 。 下 
面 大 致 介绍 一 下 这 些 视频 压缩 方法 "2 ?1 ， 但 不 做 详细 的 描述 。 

















7.6.1 MPEG 和 H. 26X 视频 压缩 : 需求 


除了 前 面 描述 的 静态 图 像 的 帧 内 压缩 方法 ， 视 频 压 缩 方 法 通常 还 包括 了 如 运 
动 估计 等 帧 间 压 缩 方法 。 在 标准 视频 编码 里 ， 运 动 估计 具有 最 多 的 操作 次 数 ， 如 
下 面 显示 了 H. 261 压缩 方法 对 单 帧 为 CIF 格式 、352 x288 像素 的 帧 率 为 30f/s 的 
视频 流 的 需求 ; 

压缩 需要 968MOPS， 则 有 



























































RGB 转换 为 YCbCr 27 
运动 估计 608 (在 16 x16 的 区 域内 进行 25 次 搜索 ) 

帧 内 / 帧 间 编 码 40 

循环 滤波 55 

像素 预测 18 

二 维 DCT 60 

量化 和 zigzag 扫描 44 

Wei Bt 17 

帧 重建 99 








大 多 数 压缩 标准 的 计算 量 都 是 不 对 称 的 ， 即 解压 比 压缩 容易 。 例 如 H. 261 , 
解压 的 操作 量 (大 约 200MOPS) 大 约 是 压缩 (1OOOMOPS) 的 20% 。 
解压 需要 198MOPS， 则 有 




















HETE 17 循环 滤波 55 
反 量 化 9 预测 30 
IDCTO 60 YCbCr 转换 为 RGB 27 











MPEG 运动 估计 方法 涉及 三 种 帧 ( 见 图 7.16)。 第 一 种 , I 帧 ， 它 不 包括 运 
动 信息 ， 所 以 类 似 有 损 JPEG 格式 。 第 二 种 ,P 帧 ， 它 包含 了 基于 前 面 的 工 帆 的 
运动 预测 信息 ; 它 也 包含 了 运动 矢量 (Motion Vector, MV) 和 误差 项 。 由 于 误 
差 项 都 较 小 ， 所 以 量化 会 得 到 很 好 的 压缩 比 。 第 三 种 ，B 帧 ， 它 是 双向 帧 ， 同 时 





© IDCT: Inverse DCT， 反 离散 余弦 变换 。 
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包含 了 基于 前 面 和 后 面 的 工 帧 或 者 P 帧 的 运动 预测 信息 。 
运动 估计 的 目的 就 是 利用 参考 帧 的 信息 。I 硕 作为 静态 图 像 编码 ， 不 依赖 任何 参考 由 
来 描述 当前 帧 的 信息 。 参 考 帧 通常 就 是 编 解 
码 顺 序 中 当前 帧 的 前 一 帧 的 重建 版 本 。 | | | | | | 
H. 264 等 视频 压缩 方法 的 运动 估计 器 中 ， 
这 些 成 对 的 帧 对 像素 值 进行 处 理 。 基 于 运动 + PIM BE TTT AE a 
估计 器 的 操作 ， 当 前 帧 的 像素 值 交 蔡 使 用 一 


| y 
组 两 个 值 进 行 表示 : 基于 参考 帧 的 预测 像素 | | | | | | 
值 加 上 预测 误差 。 预 测 误差 代表 着 当前 帧 的 


预测 像素 值 与 真实 像素 值 之 间 的 差别 。 a 

运动 估计 器 的 功能 可 以 用 以 下 方式 来 解 
释 。 假 如 原始 视频 序列 中 的 一 个 运动 物体 在 lee 久 | 
建 顺序 中 的 前 一 帧 的 一 组 像素 来 表示 。 重 建 上 
顺序 决定 了 参考 帧 。 为 了 达到 压缩 效果 , 当 0 办 生生 IAM 
前 帧 中 物体 的 代表 像素 是 以 参考 帧 中 的 像素 值 推理 出 来 的 。 参 考 帧 中 代表 物体 的 
像素 值 被 称 为 预测 器 ， 因 为 它 预测 了 当前 帧 中 的 物体 的 像素 值 。 预 测 器 通常 需要 
一 些 变化 来 获取 当前 帧 中 真实 像素 值 ， 这 些 变化 被 称 为 预测 误差 。 

在 基于 块 的 运动 估计 中 ， 当 前 帧 中 的 物体 边界 被 假定 为 沿 着 宏 块 的 边界 对 
齐 。 基 于 此 假设 ， 帧 中 描述 的 物体 可 以 用 一 个 或 者 多 个 宏 块 来 表示 。 单 个 宏 块 内 
部 的 所 有 像素 都 具有 相同 的 运动 特征 。 这 此 运动 特征 用 宏 块 的 运动 矢量 来 表示 ， 
这 个 矢量 是 从 当前 帧 的 宏 块 像素 位 置 指向 它 的 预测 器 的 像素 位 置 。 视 频 编码 标准 
没有 规定 运动 矢量 和 预测 误差 是 怎么 获得 的 。 

图 7.17 给 出 了 运动 估计 的 过 程 。 通 常 ， 运 动 估计 只 处 理 帧 的 亮度 部 分 ， 所 以 
每 个 宏 块 对 应 了 16 x16 个 亮度 像素 。 当 前 帧 被 划分 为 不 重 苹 的 宏 块 ， 对 于 每 个 宏 
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图 7.17 运动 估计 的 过 程 
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块 ， 运 动 估计 器 需要 指定 一 个 同样 也 是 一 个 16 x 16 的 方形 预测 器 。 预 测 器 同样 也 
可 以 被 看 做 是 一 个 宏 块 ， 预 测 器 依据 是 它 与 当前 帧 中 的 宏 块 的 相似 度 来 选择 。 

H. 264 等 视频 编码 标准 没有 规定 宏 块 相似 度 的 衡量 标准 ， 一 个 很 常见 的 标准 
是 绝对 距离 的 总 和 “(SAD) 标准 ，SAD 方法 就 是 计算 两 个 宏 块 中 相对 应 亮度 像 
素 的 SAD 值 。 

参考 帧 搜索 区 域内 的 所 有 宏 块 都 要 使 用 SAD 方法 计算 出 SAD 值 。SAD 值 越 
大 代表 着 这 两 个 宏 块 的 区 别 越 大 。 最 小 SAD 值 的 宏 块 将 作为 预测 器 宏 块 。 

很 多 视频 压缩 标准 都 要 求 搜索 区 域 为 矩形 且 搜 索 区 域 必须 位 于 原始 宏 块 的 坐 
标 系 上 。 和 矩形 的 维度 是 可 调节 的 ， 但 是 不 能 超过 标准 规定 的 最 大 值 。 

运动 搜索 就 是 寻找 最 佳 匹配 的 预测 器 宏 块 ， 视 频 压缩 标准 通常 也 不 会 规定 运 
动 搜索 策略 。 当 前 已 经 有 很 多 运动 搜索 方法 被 提出 来 了 。 其 中 一 种 可 能 的 搜索 方 
法 就 是 穷尽 (或 全 部 ) 搜索 ， 即 对 搜索 区 域内 的 所 有 可 能 的 宏 块 都 进行 搜索 ， 
这 种 策略 能 够 保证 得 到 的 SAD 值 是 搜索 区 域内 全 局 最 小 的 。 但 是 ， 穷 尽 搜索 的 
计算 代价 非常 大 ， 穷 尽 搜索 由 于 其 规则 性 ， 所 以 主要 会 被 硬件 设计 者 采用 。 

图 7.18 给 出 了 不 同 视频 压缩 方法 的 带宽 和 存储 ， 是 不 同 压 缩 方法 压缩 
90minDVD 质量 的 视频 所 需要 的 带宽 大 小 和 存储 大 小 。 
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图 7.18 不 同 视频 压缩 方法 的 带宽 和 存储 
a) 带宽 b) 存储 
CD ASP; Active Simple Profile， 主 动 采样 技术 ， 是 MPEG-4 的 一 个 版 本 。 











观察 压缩 或 者 解压 算法 各 个 操作 的 执行 时 间 百 分 比 时 ， 可 以 发 现 运 动 补偿 和 
运动 估计 通常 占据 最 多 的 分 量 。 例 如 ，H. 264/AVC (高 级 视频 编码 ) 解压 算法 
包含 了 四 个 主要 步 又 : 运动 补偿 、 整 数 转换 、 炉 编码 和 去 块 滤波 。 如 图 7. 19 所 
示 ， 其 中 运动 补偿 需要 开销 最 多 的 时 间 。 

压缩 算法 也 有 相同 的 结论 。 例 如 H. 263 软件 编码 2201 中 运动 估计 占 了 约 95% 
的 执行 时 间 (LAI 7. 20) 。 
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7.19 H.264/AVC 解压 的 核心 阶段 对 比 
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图 7.20 采用 半 像 素 穷尽 运动 搜索 :2 的 基本 编码 方式 的 H. 263 编码 核心 阶段 的 对 比 








7.6.2 H.264 加 速 . 设计 


H. 264 是 最 常见 的 视频 格式 之 一 。 它 作为 一 个 国际 标准 ,已 经 被 很 多 DVB 
和 3G 等 广播 和 移动 通信 标准 所 采用 。 它 的 编码 效率 使 视频 流 等 新 的 应 用 成 为 
可 能 。 

H. 264 包含 了 视频 压缩 中 的 运动 估计 和 其 他 方法 等 高 级 算法 。 对 于 运动 估 
计 ， 它 支持 16 x16 个 像素 到 4 x4 个 像素 的 宏 块 大 小 。 对 4 x4 的 宏 块 使 用 残留 
数据 转换 来 消除 舍 入 误差 ， 残 留 数据 转换 的 方法 为 改进 的 整数 DCT, 

相 比 以 前 的 标准 ，H. 264 具有 更 好 的 性 能 ， 原 因 在 于 它 的 搜索 范围 更 宽 ， 具 
备 多 参考 帧 ， 并 且 运 动 估计 和 运动 补偿 采用 更 小 的 宏 块 (这 将 导致 计算 中 更 多 
的 装载 次 数 ) 。 为 了 满足 多 种 不 同 的 编码 任务 ， 如 运动 估计 中 的 各 项 操作 ， 
H. 264 需要 更 高 速度 的 内 存 和 高 度 流 水 化 的 设计 。 

现在 考虑 两 种 方式 。 第 一 种 方式 是 以 可 编程 或 者 专用 硬件 来 实现 这 些 任 务 。 
例如 ， 有 一 项 最 新 的 设计 以 不 同 的 硬件 技术 实现 了 基本 的 H. 264/ AVC 编码 核 
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8! ， 包 括 以 下 几 项 〈 见 表 7.6) : 

© 4CIF (704x576), 30f/s; 低 成 本 的 FPGA, Xilinx Spartan-3 和 Altera Cy- 
clone- II , 

e 720P, 30f/s; œm FPGA, Xilinx Virtex-4 和 Altera Stratix- II , 

e 1080P, 30f/s; 0. 13m ASIC, 


$7.6 H.264/AVC 编码 的 FPGA 设计 和 ASIC igit 




















技 术 近似 面积 速度 /MHz 视频 吞吐 量 
0. 13m LV 178K 门 + 106Kb RAM, was 1920 x 1080 (1080P) 
0.9V, 125C 为 速度 做 了 优化 i WH 30f/s 

0. 18um 129K 门 + 106Kb RAM, 大 4CIF (704 x576) 

低速 工艺 为 速度 做 了 优化 WH 30f/s 

17511 ALUT® +5M512 1280 x720 (720P 

StratixllC3 UL i 24 118 haat 

51M4K +3DSP WRAY 32f/s 

uit ae 18510M4K2 + 5M512 + oe ACIF (704 x 576) 

clone. = 

á 51M4K +3DSP WRA 40f/s 

10600 Slice) +3 R} 1280 x720 (720P 

Virtex4-12 四 《Slise) 二 3 乘法 约 110 x720 eae 

器 +33RAM 块 WRAY 30f/s 

10600 Slice) +3 乘 ACIF (704 x 576 

Spartan3-4 Tan Ah ee 24 50 1704x376) 
法 器 +33RAM 块 WEA 30f/s 




















@ ALUT; Adaptive Lookup Table， 自 适应 查找 表 。 
@ M4K: 一 种 可 配置 内 存 块 ， 总 大 小 为 4608bit。 

第 二 种 方式 是 以 本 书 6. 5. 3 节 介 绍 的 软件 可 配置 处 理 需 来 实现 这 些 任务 ， 此 
处 理 右 具有 指令 集 可 扩展 结构 ， 用 来 支持 实现 定制 需求 的 操作 ， 即 定制 指令 
(也 称 为 扩展 指令 ) 。 这 里 使 用 的 是 一 个 300MHz 的 Stretch S5 处 理 器 ， 它 能 达到 
30f/s 对 标清 (Standard Definition, SD) 格式 的 视频 流 进行 H. 264 进行 编码 5" 。 
下 面 将 深入 了 解 此 方法 。 

一 个 成 功 的 实时 视频 编码 应 用 必须 能 够 为 特定 的 屏幕 分 辩 率 传递 最 好 的 图 像 
质量 ， 这 将 受到 现实 世界 的 限制 。 例 如 ， 一 个 未 压缩 的 720 x480 像素 的 视频 流 ， 
每 个 像素 需要 1. 5B 的 颜色 信息 。 这 样 的 视频 流 每 帧 需要 518KB, Æ 30Vs 的 条 
件 下 ， 它 需要 15. 5MB/s 的 存储 能 力 和 带宽 。 

图 7.21 给 出 了 H.264 编码 架构 。 这 种 编码 方式 的 效率 可 以 从 以 下 功能 的 实 
现 中 看 出 : 

1. 前 向 DCT 和 IDCT。 

2. 利用 前 向 和 反 矢 量化 进行 帧 内 预测 。 
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3. 去 块 滤波 。 













































































4. 利用 帧 间 对 比 进行 运动 估计 。 
wg — 4 
Lae | 人 前 向 变换 | e L =) 精 编 友 
eg -1 
运动 | MM! 
menh it 一 一 
人 PO coe an l 
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À 












































去 块 滤波 = ( )= 一 | 反 变 换 H 反 量 化 一 


























图 7.21 H. 264 2 teh Be peg 92) 


由 于 需要 的 计算 量 的 限制 ， 以 上 方法 都 可 以 作为 硬件 加 速 的 主要 备 选项 。 通 
过 利用 这 些 算法 的 内 部 并 行 性 可 以 获得 额外 的 加 速效 果 。 

DCT 考虑 对 4 x4 的 亮度 像素 块 进行 二 维 DCT 和 量化 操作 。 利 用 对 称 性 和 
公共 子 表达 式 ，DCT 部 分 的 矩阵 计算 可 以 被 缩减 为 64 次 加 减 计算 。 所 有 的 64 次 
操作 可 以 被 ISEF 中 的 一 条 定制 指令 来 实现 。 

量化 (Q) ”这 一 步 在 DCT 之 后 。 将 量化 操作 用 简单 的 乘法 和 移 位 操作 来 
实现 ， 可 以 避免 计算 量 较 大 的 除法 操作 。 将 亮度 像素 用 DCT +Q +IDCT + IQ 进 
行 编码 和 解码 的 过 程 一 共 需 要 594 次 加 法 、16 次 乘法 和 288 次 选择 (采用 多 路 
选择 器 ) 。 

去 块 滤波 ISEF 的 128 位 总 线 需 要 1 拍 将 一 行 8 个 16 位 的 预测 数据 装载 进 
来 。 所 以 在 编译 器 能 够 识别 出 函数 的 内 部 并 行 性 的 条 件 下 ， 一 条 ISEF 指令 就 可 
以 替代 多 条 传统 指令 。 使 用 标准 处 理 器 对 4 x4 的 宏 块 进行 这 些 人 处理 需要 超过 
1000 拍 ， 但 在 软件 可 配置 的 处 理 器 中 执行 只 需要 105 拍 ， 相 当 于 10 倍 的 加 速 
比 。 因 此 一 个 30f/s、720 x480 像素 的 视频 流 只 需要 RISC 处 理 器 的 14. 2% 的 利 
用 率 ， 因 为 任务 的 大 部 分 都 被 抒 载 到 ISEF 里 。 增 加 子 宏 块 大 小 可 以 提高 并 行 性 ; 
例如 ， 对 两 个 4 x4 宏 块 并 行进 行 处 理 能 减少 一 半 的 执行 时 间 ， 使 RISC 处 理 器 的 
利用 率 降低 到 7.1% ， 原 因 是 ISEF 承担 了 更 重 的 负载 。 

加 速 去 块 滤波 要 求 开发 者 将 条 件 代 码 减 到 最 少 。 不 需要 决定 计算 什么 值 ， 取 
而 代 之 的 是 更 高 效 地 创建 一 条 定制 指令 ， 定 制 指令 用 硬件 计算 所 有 的 结果 ， 然 后 


选择 出 合适 的 结果 。 
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将 IDCT 阶段 的 128 位 结果 进行 重新 排序 ， 从 而 简化 了 将 16 个 8 位 的 边缘 像 
素数 据 打包 为 一 个 128 位 的 数据 包 并 提供 给 去 块 定制 指令 的 过 程 。 在 ISEF 和 指 
令 中 的 状态 寄存 器 能 实现 对 宏 块 参数 的 预计 算 ， 这 是 另 一 个 可 选 的 优化 方法 。 

滤波 器 的 内 部 循环 装载 128 位 的 寄存 器 值 ， 执 行 去 块 滤波 定制 指令 ， 每 条 指 
令 能 计算 两 条 边 。 由 于 同样 的 定制 指令 能 够 用 于 水 平和 垂直 方向 的 滤波 ， 所 以 不 
需要 额外 的 开销 。 

内 部 循环 需要 3 拍 完成 ， 并 且 执 行 两 次 (水 平和 垂直 方向 ) ， 循 环 的 额外 开 
销 大 概 为 20 拍 。 若 每 兆 字 节 数据 有 64 条 边 ， 那 么 大 约 需要 416 ( 即 64/4 x 26 ) 
拍 来 处 理 这 IMB 数据 。 对 于 分 辨 率 为 720 x480, WMX 30f/s 的 视频 流 ， 大 约 
需要 16. 8 兆 拍 每 秒 ， 或 大 约 $.2% 的 处 理 器 利用 率 。 

运动 估计 已 经 知道 这 部 分 消耗 了 处 理 器 的 大 部 分 资源 (50% ~60% ) 。 它 
的 关键 计算 需求 就 是 重复 的 计算 SAD 值 来 获得 最 匹配 的 运动 矢量 。 

运动 估计 需要 进行 重复 性 的 数据 计算 和 比较 ， 并 且 有 很 多 重复 使 用 的 中 间 结 
果 。 传 统 处 理 器 和 DSP 有 限 的 寄存 器 空间 不 能 满足 这 些 大 的 数据 集 存储 需求 。 
同时 ， 这 些 处 理 器 和 DSP 设计 从 数据 缓存 中 获取 的 数据 很 难 满足 固定 计算 和 乘 
法 单元 的 需求 。 

使 用 Stretch S5 软件 可 配置 处 理 器 时 ，ISEF 定制 处 理 单元 能 够 并 行 处 理 计算 
任务 ， 并且 在 执行 全 流水 SAD 指令 时 ， 能 够 在 状态 寄存 器 中 保存 中 间 结 
每 个 宏 块 的 运动 估计 包含 了 大 约 41 次 SAD 和 41 次 MV 计算 。 单 个 宏 块 执行 
一 次 全 运动 搜索 需要 262K 次 操作 ，30f/s 的 视频 流 每 秒 需 要 一 共 10. 6G 次 操作 。 

利用 实现 时 的 启发 式 算法 ， 应 用 开发 者 可 以 将 计算 量 最 小 化 ， 来 满足 目标 图 
像 质量 或 者 比特 率 要 求 。 

跨 不 同 搜索 区 域 、 不 同 帧 、 不 同和 运动 矢量 的 用 户 运动 估计 算法 经 过 优化 后 可 
以 很 容易 用 ISEF 指令 来 实现 。 一 条 和 定制 指令 就 可 以 代替 多 次 计算 ， 同 时 也 可 以 
使 用 中 间 结 果 将 大 量 计算 流水 化 。 

例如 ， 一 条 定制 指令 可 以 执行 64 次 SAD 计算 。ISEF 保存 这 64 次 计算 的 结 
果 ， 并 提供 给 下 一 条 指令 重复 利用 ， 从 而 减少 了 数据 传输 的 次 数 。ISEF 指令 也 
可 以 流水 化 ， 从 而 提高 计算 能 力 。 

运动 估计 同时 也 涉及 多 种 像素 预测 ， 需 要 在 像素 周围 的 9 个 方向 执行 9 次 
SAD 计算 。 利 用 定制 指令 ， 一 次 16 x 16 的 1/4 像素 精度 的 SAD 计算 需要 133 
fA, 一 次 4 x4 的 1/4 像素 精度 的 SAD 计算 需要 50 拍 。 

以 上 讨论 均 假设 使 用 Stretch S5 处 理 器 。Stretch S6 处 理 器 带 有 一 个 可 编程 的 
加 速 器 ， 它 为 运动 估计 提供 了 一 个 专用 的 硬件 模块 ， 所 以 在 Stretch S6 处 理 器 中 
不 需要 实现 这 些 操作 。 
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7.7 未 来 的 应 用 研究 


本 节 介 绍 几 种 应 用 ， 从 而 阐明 需求 和 SoC 解决 方案 的 多 样 性 。 
7.7.1 MP3 音频 解码 








MP3 (MPEG-1/2 Audio layer-3) 是 最 流行 的 高 质量 压缩 音频 格式 。 本 节 将 
概括 地 了 解 它 的 基本 算法 "并 介绍 它 的 两 种 实现 方法 : 一 种 是 用 ASIC， 另 一 种 
是 用 FPGA"! 。 

需求 ”MPEG-1 标准 包含 了 以 联合 比特 率 1. SMb/s 的 方式 压缩 数字 视频 和 音 
频 。 这 个 标准 可 以 分 为 几 部 分 ， 其 中 第 三 部 分 主要 处 理 音 频 压 缩 。 根 据 不 同 级 别 
的 复杂 度 和 人 性能， 音频 压缩 标准 包含 三 层 ; 层面 三 标准 (通常 称 为 MP3) 具有 
最 好 的 性 能 ， 同 时 也 是 最 高 复杂 度 的 。 

MP3 音频 算法 涉及 感知 编码 ， 如 图 7. 22 所 示 。 这 个 算法 将 心理 声学 模型 和 
昆 合 子 带 /变换 编码 原理 的 结合 。 音 频 信和 号 被 分 为 32 个 子 带 信号 ， 对 每 个 子 带 信 
号 进行 改进 的 离散 余弦 变换 (Modified DCT，MDCT)。 根 据 心理 声学 驱动 的 感知 
误差 机 制 ， 变 换 系 数 使 用 标量 量化 和 变 长 哈 夫 曼 编码 方法 进行 编码 。 
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图 7. 22 ”感知 编码 和 解码 的 模块 图 [9 





MP3 比特 流 是 一 系列 数据 “ 帧 ”的 串联 形式 ， 每 帧 对 应 了 音频 的 两 个 “ 颗 
粒 ”， 每 个 颗粒 被 定义 为 精确 的 576 个 连续 的 音频 样本 。1 个 颗粒 有 时 候 会 被 划 
分 为 3 个 包含 192 个 样本 的 短 颗 粒 。 

对 一 个 MP3 帧 进行 解码 主要 有 三 步 : 第 一 步 ， 同 步 到 帧 的 开始 ， 解 码头 信 
息 ; 第 二 步 ， 解 码 边 信 息 ， 边 信息 包括 比例 因子 选择 信息 、 块 分 割 信息 和 表 选 择 
信息 ; 第 三 步 ， 解 码 两 个 颗粒 的 主要 数据 ， 包 括 变换 因子 的 哈 夫 曼 比 特 信 息 、 比 
例 因 子 。 帧 中 的 主要 数据 可 能 会 溢出 到 相 邻 的 帧 ， 所 以 需要 缓存 多 个 数据 帧 。 

当 帧 的 信息 被 解析 后 ， 下 一 步 就 是 从 解码 的 信息 重建 音频 的 每 个 颗粒 ， 主 要 
包括 以 下 几 步 : 

1. 从 主要 信息 和 边 信 息 中 通过 反 量 化 得 到 变换 因子 ， 使 用 非 线 性 变换 来 得 
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到 解码 的 变换 因子 。 
2. 当 使 用 短 块 时 ， 反 量化 得 出 的 变换 因子 需要 重 拍 并 且 划 分 为 三 个 变换 因 


子 集合 ， 每 个 块 对 应 一 个 。 

3. 当 使 用 特定 的 立体 信号 ， 左 声 道 和 右 声 道 一 起 进行 编码 时 ， 变 换 因子 通 
过 声 道 信息 重新 形成 左 声 道 因子 和 右 声 道 因子 。 

4. 对 于 较 长 的 块 进行 “ 混 礁 消 除 (Alias Reduction)”。 

5. 对 每 个 声 道 的 32 个 子 带 信息 使 用 带 因子 的 逆向 的 改进 离散 余弦 变换 ( In- 
verse MDCT, IMDCT) 。 

6. 对 连续 帧 的 IMDCT A HATA A, te IMDCT 输出 
结果 的 前 半 部 分 与 前 一 个 颗粒 对 应 子 带 的 IMDCT fa a RB op EFT TI 

7. 最 后 一 步 ， 使 用 一 组 反 多 相 滤 波 器 将 32 个 子 带 信号 组 成 一 个 全 带 时 域 信号 。 

设计 ARM 处 理 器 和 DSP 处 理 器 的 结构 图 揭示 了 子 带 合 成 滤波 (synthesis 
filter bank) 是 最 消耗 时 间 的 任务 ( 见 表 7.7) 。 

表 7.7 ARM 和 DSP 处 理 器 上 的 MP3 分 析 结 果 













































































模 OR 在 ARM 上 的 时 间 百 分 比 在 DSP 上 的 时 间 百 分 比 
头 、 边 声调 ， 译 码 比例 因子 7 13 
哈 夫 曼 编 码 ， 立 体 声 处 理 10 30 
混 释 消除 ，IMDCT 18 15 
滤波 器 组 65 42 











美国 AMI 半导体 公司 "已 经 在 五 个 金属 层 350nm CMOS 工艺 的 基础 上 开发 
出 了 一 个 ASIC 原型 。 该 芯片 包含 了 5 个 RAM， 有 主 存 、 哈 夫 曼 表 ROM (IL 
表 7.8) ， 核 心 的 大 小 接近 13mm ， 工 作 在 2V、12MHz 时 功 耗 为 40mW。 在 满足 
实时 性 限制 的 条 件 下 ， 可 以 将 时 钟 频率 降低 到 4 ~ 6MHz。 
表 7.8 350nm ASIC 技术 上 的 MP3 解码 模块 


















































解码 模块 存储 /bit ROM 表 /bit 等 价 的 门 数量 

同步 8192 0 3689 
HEEF 24064 0 1028 
哈 夫 曼 编 码 0 45056 10992 
再 量化 0 0 21583 
重 排 0 0 3653 
SURE 0 0 13882 
IMDCT 24064 0 61931 
滤波 器 组 26112 0 31700 
PS 9216 0 949 

共计 91648 45056 149407 
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解码 过 程 的 实时 性 要 求 是 由 MP3 帧 的 音频 信息 决定 的 。 解 码 过 程 中 不 同 子 
模块 在 24MHz 的 系统 时 钟 条 件 下 的 计算 时 间 不 同 〈 见 表 7.9) 1。 解 码 过 程 所 
需要 的 总 时 间 为 2.3ms， 在 24. 7ms 的 限制 内 显得 很 容易 。 这 就 表示 解码 的 时 钟 
速度 还 可 以 降低 ， 资 源 可 以 共享 以 达到 降低 成 本 的 目的 。 

表 7.9 Xilinx Virtex- I 1000FPGA 平台 上 MP3 解码 的 资源 利用 率 和 计算 时 间 071 







































































解码 模块 Fr (slice) (%) RAM # (%) TEEN M/s 
同步 15 10 140 
哈 夫 曼 编 码 11 7 120 
再 量化 12 5 140 
重 排 1 12 10 
MRE 3 0 83 
IMDCT 8 13 678 
滤波 器 组 6 10 1160 
共计 56 57 2331 














对 应 Virtex- I 1000FPGA 平台 上 的 资源 利用 率 ( 见 表 7.9)， 此 设计 使 用 了 
56% 的 FPGA Fr (slice), 15% FY fh at, 45% 的 四 输入 查找 表 ，57% 的 块 
RAM。 而 且 ， 由 四 个 可 用 的 18 x18 位 乘法 器 组 成 的 32 x32 位 乘法 器 在 各 个 子 模 
块 中 共享 。 

利用 子 模块 之 间 的 资源 共享 可 以 减少 设计 的 面积 和 功 耗 。 然 而 ， 这 种 资源 共 
享 可 能 会 使 控制 和 实现 复杂 化 ， 如 引入 了 路 径 瓶 颈 ; 因此 ， 在 采用 这 种 方法 前 必 
须 对 它 的 好 处 与 坏处 进行 评估 。 


7.7.2 IEEE 802. 16 软件 定义 无 线 电 


WiMAX (IEEE 802. 16) 无 线 通 信 标 准 和 很 多 其 他 无 线 通信 标准 一 样 都 试图 
通过 提高 数据 传输 速率 来 满足 终端 应 用 的 需求 并 减少 部 署 成 本 。 从 很 多 的 噪声 中 
鉴定 数字 数据 的 技术 方法 给 大 多 数 处 理 右 的 计算 能 力 增加 了 很 大 的 压力 。 随 着 标 
准 的 不 断 改 进 ， 需求 的 随时 变动 ， 可 编程 的 解决 方案 越 来 越 吸 引 人 。 

需求 ”图 7.23 显示 了 一 个 基本 的 IEEE 802. 16 发 射 器 的 实现 模块 图 "091 。 在 
较 高 的 层面 上 ， 发 射 器 的 物理 (Physical PHY) 层 将 原始 数字 数据 流转 化 为 复杂 
数据 流 ， 复 杂 数 据 流 经 过 进一步 转化 成 为 模拟 无 线 电 信和 号。 接收 端的 PHY 层 从 
复杂 数据 流 中 将 数据 解码 为 原始 数据 形式 。 

PHY 层 中 的 模块 都 是 计算 量 需 求 较 大 的 ， 包括 快速 傅 里 叶 变 换 (Fast Fourier 
Transforms, FFT) FUA i] FFT (IFFT)、 前 向 纠 错 (Forward Error Correcti FEC) , 
正 交 调幅 、 交 错 和 和 置 乱 。 其 中 前 向 纠 错 包括 如 里 德 -所 罗 门 编 解 码 的 分 组 编码 ， 以 
及 如 卷 积 编码 、 维 特 比 解码 和 正 交 振幅 调制 (Quadrature Amplitude Modulation, 
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图 7.23 IEEE 802. 16 发 射 器 模块 图 1%] 


QAM) 的 位 编码 。 媒 体 访问 控制 (Media Access Control, MAC) 层 给 PHY 层 和 网 络 
层 提供 接口 。MAC 层 的 处 理 是 控制 导向 的 ， 它 从 网 络 层 获取 数据 包 ， 依 据 服务 质量 
(Quality of Service, QoS) 来 对 需要 发 送 的 数据 进行 调度 ; 在 接收 端 ，MAC 层 将 数据 
重组 并 转交 给 网 络 层 。MAC 层 也 需要 在 基站 和 用 户 站 之 间 发 送 维持 通信 的 信息 和 错 
误 数据 包 的 重复 请 求 信息 。 网 络 层 是 面向 应 用 的 接口 。TCP/IP 网 络 协议 栈 是 当今 最 
常见 的 网 络 协议 栈 。 所 有 的 层面 相连 接 以 组 成 一 套 完 整 的 网 络 解决 方案 。 

设计 802. 16WiMAX 标准 的 PHY 层 需要 处 理 256 位 的 FFT 和正 交 频 分 复 用 
( Orthogonal Frequency-Division Multiplexing，OFDM) 。 在 Stretch S5 软件 可 配置 处 
理 器 (本 书 6.5.3 节 ) E, OFDM 的 工作 信道 宽度 可 以 被 配置 为 3. 5MHz、7MHz 
和 10MHz!'°! ， 支 持 二 进 制 移 相 键 控 法 ( Binary Phase Shift Keying, BPSK) 、 正 交 
相 移 键 控 法 (Quadrature Phase Shift Keying, QPSK) 16QAM 或 者 64QAM 的 调制 
方法 。 在 带 有 噪声 的 环境 里 ， 需 要 FEC 模块 进行 前 向 纠 错 ， 标 准 里 有 很 多 方法 
供 选择 。 注 意 ， 传 统 的 RISC 处 理 器 或 DSP 处 理 器 不 能 满足 WiMAX 同时 进行 基 
带 处 理 和 控制 任务 的 高 级 需求 。 单 个 的 软件 可 配置 处 理 器 就 可 以 满足 责任 重大 的 
WiMax 信和 号 处 理 和 任务 控制 的 需求 ， 如 在 单 芯 片上 的 基本 MAC 层 和 完整 TCP/IP 
协议 栈 就 能 使 三 种 信道 宽度 达到 最 高 比特 率 。 

Stretch 软件 可 配置 处 理 器 通过 定义 一 条 作为 扩展 指令 的 用 户 指 令 来 实现 基 
2FFT， 这 条 指令 支持 16 次 16 x 16 的 乘法 ，8 次 32 位 加 法 和 16 次 带 舍 人 和 缩放 
的 16 位 加 法 。 此 用 户 指令 利用 128 位 位 宽 寄存 器 将 三 组 四 个 复杂 的 值 传 递 给 
ISEF 进行 并 行 操作 。 这 样 就 能 在 4hs 内 完成 256 点 FFT。 实 现 基 4FFT 能 得 到 
28% 的 性 能 提升 。 

FEC 模块 是 从 灵活 性 和 性 能 获得 好 处 的 另 一 个 模块 。 在 有 声 道 噪声 的 情况 
下 ， 前 向 纠 错 在 发 射 端 采取 数据 元 余 ， 在 接收 端 纠 正 错误 ， 从 而 增加 数据 吞吐 
量 。 在 卷 积 编码 中 ， 每 一 个 编码 位 是 由 当前 输入 的 1 比特 与 之 前 输入 的 多 个 比特 
进行 卷 积 运 算得 出 的 。 计 算 中 使 用 的 比特 数 叫 约束 长 度 ， 比 率 为 每 输出 1 个 比特 
所 需要 输入 的 比特 数 。WiMax 标准 使 用 的 卷 积 编码 的 约束 长 度 为 7、 比 率 为 1/2， 
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同时 ， 它 也 支持 其 他 比率 。 

RISC 处 理 器 处 理 卷 积 编码 中 的 比特 级 的 操作 时 通常 不 够 高 效 。 在 Stretch 软 
件 可 配置 处 理 器 中 ， 比 特级 的 操作 可 以 利用 用 户 处 理 单元 ISEF 来 进行 优化 。 可 
以 实现 64 位 输入 产生 128 位 输出 的 用 户 指令 ， 这 条 指令 使 用 内 部 状态 来 保存 6 
位 的 状态 位 ， 并 将 64 位 输入 与 状态 位 并 行 地 进行 卷 积 运算 ， 产 生 128 位 的 输出 。 

卷 积 编码 产生 的 比特 流 可 以 使 用 格 构 (trellis) 图 来 找到 最 可 能 的 编码 序列 。 
维特 比 解 码 器 通过 限制 检查 的 序列 数目 来 达到 高 效 的 解码 比特 流 。 它 记录 每 个 格 
构 阶 段 每 个 状态 的 最 可 能 路 径 。 维 特 比 解码 方法 是 计算 密集 型 操作 ， 它 需要 对 每 
个 阶段 每 个 状态 进行 相 加 -比较 -选择 (Add-Compare-Selected, ACS) 运算 ， 同 时 
还 要 记录 所 选 路 径 的 历史 。 它 主要 包括 三 步 : (1) 分 支 度量 计算 ，(2) 每 个 阶 
段 每 个 状态 的 ACS 计算 ，(3) (ALB, 

在 格 构图 中 ， 每 个 分 支 都 有 一 个 度量 方法 ， 这 个 方法 称 为 分 支 度量 ， 它 衡量 
了 接收 到 的 信号 与 输出 分 支 标签 之 间 的 距离 。 分 支 度量 是 由 接收 到 的 样本 与 分 支 
标签 之 间 的 欧 氏 距离 计算 而 来 的 。 

用 户 创建 的 指令 EL ACS64 就 是 用 来 处 理 这 些 的 。 它 进行 分 支 度 量 计 算 ， 将 
分 支 度 量 与 上 一 个 阶段 的 路 径 度 量 相 加 ， 然 后 比较 两 条 形成 路 径 的 路 径 度 量 ， 将 最 
大 值 更 新 为 新 的 路 径 度量 ， 然 后 选择 路 径 。EL_ ACS64 指令 并 行 地 处 理 一 个 格 构 状 
态 的 所 有 状态 的 ACS 操作 。 换 名 话说 ， 这 条 用 户 指 令 并行 地 处 理 32 次 蝶 式 运算 。 
64 次 路 径 度量 的 结果 在 ISEF 中 以 内 部 状态 存储 。 当 一 个 状态 转换 到 下 一 个 状态 
时 ，EL_ACS64 针对 每 个 状态 对 输出 宽度 寄存 器 更 新 1 位 ， 表 示 此 路 径 被 选中 。 每 
个 状态 遍历 四 个 格 构 阶 段 ， 共 更 新 4 位 ， 对 于 所 有 的 状态 ， 一 共 更 新 4 位 x 64 = 
256 位 ， 可 以 使 用 两 条 存储 指令 〈WRAS128IU) 将 这 些 位 存储 到 内 存 中 。 

真正 将 数据 解码 为 原始 数据 是 对 格 构 沿 着 最 可 能 的 路 径 进行 回溯 得 到 的 。 回 
溯 的 长 度 一 般 是 卷 积 编码 的 余数 长 度 的 4~5 倍 。 在 某 些 情况 下 ， 回 溯 开 始 前 数 
据 帧 就 已 经 接收 完成 。 那 么 从 反方 向 遍历 格 构 来 对 输入 比特 流 进行 解码 。 假 设 在 
最 后 一 个 格 构 阶 段 的 状态 停 在 了 一 个 已 知 的 状态 ， 典 型 的 状态 “0”。 可 以 通过 
发 送 额 外 的 K-1 位 0 来 将 所 有 的 状态 转化 到 “0” 状态 。 每 个 状态 存储 的 1 位 
表明 从 阶段 7 跳 转 到 阶段 7 -1 时 是 从 哪个 分 支 转换 的 。 创 建 男 一 个 用 户 指 令 VIT- 
ERBI TB， 用 它 来 对 4 个 格 构 阶 段 进行 回 湖 。 它 使 用 内 部 状态 来 保存 前 一 状态 ， 
使 用 它 来 进行 下 一 个 回溯 循环 ， 并 输出 4 位 的 解码 比特 流 。 在 8 位 解码 比特 流 被 
存储 到 内 存 之 前 ， 指 令 VITERBI_TB 会 被 执行 两 次 。 


















































7.8 总 结 


希望 本 章 的 内 容 能 很 好 地 阐述 SoC 应 用 的 多 样 性 、 相 关 设 计 技 术 和 SoC 架构 
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的 范畴 。Soc ZEFA KIYE MEn MERA ARM 处 理 器 到 可 重 构 芯 片 ， 可 重 构 芯 片 
有 从 Xilinx 到 Stretch 的 各 类 处 理 咒 ， 其 中 有 很 多 在 前 面 章 节 中 已 经 介绍 过 了 。 
有 趣 的 是 ， 多 媒体 、 密 码 学 、 通 信和 很 多 其 他 的 关键 应 用 对 性 能 需求 的 快速 增长 
导致 了 一 批 新 兴 的 企业 ， 如 美国 Achronix、 美 国 Element CXI、 和 荷兰 Silicon Hive, 
美国 Stretch 和 美国 Tabula 公司 ， 时 间 将 会 说 明 它们 中 间 谁 是 赢家 。 

但 是 ， 这 里 没有 尝试 提供 详细 完整 的 使 用 最 新 工具 的 特定 应 用 的 设计 开发 或 
设计 风格 ， 这 些 内 容 可 以 在 已 有 的 书 中 找到 。 例 如 ，Fisher 等 人 9] ， 以 及 Rowen 
和 Leibson'” | 相对 比较 专注 于 VLIW 结构 和 可 配置 处 理 器 方面 。 从 工业 角度 的 SoC 
设计 案例 "中 和 设计 方法 "3 也 可 以 在 现 有 的 资料 中 找到 。 对 处 理 器 设计 中 的 分 析 技 
术 应 用 的 详细 案例 感 兴趣 的 读者 可 以 参考 Flynn! Hennessy 和 Patterson!!! 的 书 。 





7.9 习题 


1. 为 了 支持 IEEE 802. 11bWi-Fi 的 AES, 32 位 ARM7 指令 集 的 处 理 器 的 频 
率 最 低 需 要 多 少 ? 如 果 是 64 位 处 理 器 呢 ? 

2. 对 于 30f/s 的 1920 x 1080 像素 的 高 清 视 频 ， 试 估算 在 计算 DCT 时 每 秒 的 
操作 次 数 。 

3. 解释 为 什么 图 7. 14 所 示 的 相机 JPEG 系统 能 被 改进 为 支持 10M 像素 图 像 
的 相机 JPEG 系统 。 

4. 假设 FPGA 以 90nm 工艺 生产 的 ， 试 估计 表 7.6 所 示 的 FPGA 和 ASIC 设 
计 的 大 小 (单位 为 rbe)。 

5. 假设 FPGA 以 90nm 工艺 生产 ， 比 较 表 7.6 所 示 的 FPGA 和 ASIC 设计 的 
优点 和 缺点 。 若 FPGA 和 ASIC 的 工艺 变 为 45nm, 请 再 次 比较 表 7.6 所 示 的 FP- 
GA 和 ASIC 设计 的 优 缺 点 。 

6. 假设 一 个 三 维 图 像 应 用 需要 处 理 夺 个 未 裁剪 的 三 角形 ， 每 个 三 角形 的 像 
素 个 数 平均 为 p， 被 其 他 三 角形 覆盖 的 系数 为 w。 采 用 环境 漫 射 光 照明 模型 和 高 
洛 德 着 色 ， 分 辨 率 为 m xn， 帧 率 为 1 (单位 为 Vs) 。 

(a) 计算 几何 操作 中 的 浮 点 运算 次 数 。 

(b) 计算 像素 值 的 整数 运算 次 数 。 

(e) 计算 光栅 化 的 访 存 次 数 。 

7. 表 7. 10 给 出 了 ARM1136J-S PXP 系统 的 性 能 参数 。 在 16K 指令 缓存 和 
16K 数据 缓存 的 情况 下 ， 数 据 通路 的 运行 频率 最 高 达 350MHz。32K +32K 和 64K 
+64K 实现 方式 的 运行 速度 受到 了 它们 的 缓存 实现 的 限制 。 

(a) 说 明 增 加 一 级 缓存 大 小 对 性 能 的 影响 。 

(b) 说 明 导 致 了 最 大 的 缓存 面积 却 没 有 最 快 的 速度 的 原因 。 
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(c) 比较 最 快 的 设计 和 第 2 快 的 设计 ， 说 明 哪 一 种 具有 更 好 的 性 价 比 ， 并 
说 明 为 什么 。 

















表 7.10 ARM1136J-S PXP 系统 的 性 能 参数 ( MPEG4 解码 的 性 能 
z 16K + 32K + 64K + 16K + 16K + 16K + 32K + 32K + 
一 级 缓存 大 小 16K 32K 64K 16K 16K 16K 32K 32K 
二 级 缓存 大 小 128K 256K 512K 256K 512K 
速度 /MHz 350 324 277 350 350 324 324 324 
面积 2.3 3.3 6 8.3 12. 3 21 13.3 22 
运行 时 间 /ms | 122.6 96.7 93.8 70.6 60.7 60 63.6 63.2 





























注 : 面积 值 包括 相应 的 二 级 缓存 的 面积 。 


8. 如 图 7. 24 所 示 ， 两 个 图 像 厂 : H xw, AL: H, x W, 进行 卷 积 算法 ， 图 
像 的 可 选 的 掩 模 分 别 为 相对 同样 大 小 的 M 和 WM, H, >H, AW, >W, Ay fos 
和 所 为 纯 函 数 ， 即 函数 的 结果 只 与 它们 的 参数 相关 ， 与 内 部 状态 无 关 。 

(a) 在 如 下 情况 下 计算 M,, M, ho fo. fi tf, MA: (1) SAD 相关 ; 
(2) 归 一 化 相关 ; (3) 高 斯 模糊 。 

(b) 输出 的 结果 图 像 I 的 分 辩 率 是 多 少 ? 

(c) 产生 结果 图 像 需要 多 少 拍 ? 














for y =0 to H, - H, do 
for x =0 to W, - W, do 
lc, = fl 


Hy-1 Wi 


> È fol M1,,, 11,;, M2 ,i 8 Deu) 
i=0 j=0 . S E Si 
H-1 Wi 


> X Ai Mill) 
i=0 j=0 
H-1 Wi 


>, Èh (M1 y+i,x+j 9 Dring) ) 


i=0 j=0 
end for 
end for 


图 7.24 输出 图 像 为 I 的 卷 积 算法 


第 8 音 展望 : 未 来 的 挑战 


8.1 引言 





伴随 着 晶体 管 密度 的 快速 增长 ， 需 要 对 未 来 的 挑战 做 个 预测 。 一 种 理想 预测 
是 全 自治 片上 系统 (Autonomous SoC, ASoC): 它 融 合 了 射频 识别 (radio-fre- 
quency identification, RFID) 技术 与 SoC 技术 外 加 能 量 转 换 器 、 传 感 控制 器 和 电 
池 ， 所 有 这 些 都 集成 在 一 个 芯片 上 。 这 最 主要 的 挑战 在 于 设计 要 满足 极 低 的 功率 
(1RW 或 更 低 ) 和 能 耗 要 求 。 这 就 需要 重新 设计 时 钟 、 片 上 存储 的 组 织 和 处 理 需 
核 的 布置 。 通 过 使 用 薄膜 电池 、 有 效 的 无 线 电 通 信 、 数 字 信和 号 传感器 和 微 电 机 系 
统 (Microelectromechanical System, MEMS) 可 以 完成 ASoC 计划 。 除 了 满足 这 样 
的 要 求 ， 还 需要 平衡 系统 的 功 耗 、RF 和 速度 。 

之 ， 设 计时 间 和 成 本 是 SoC 系统 目前 主要 的 瓶 贷 ， 并且 在 未 来 可 能 
严重 。 一 种 打破 这 种 限制 的 有 效 方法 是 开发 一 种 设计 机 制 ， 使 得 组 件 可 以 自我 优 
化 和 自我 验证 来 改善 有 效 性 、 重 用 性 和 正确 性 一 一 由 ITRS 提出 的 三 大 设计 挑战 。 
在 设计 前 后 的 自我 优化 和 自我 验证 是 未 来 SoC 设计 的 核心 。 

本 章 共 有 两 部 分 内 容 : 第 一 部 分 描述 未 来 的 系统 一 一 ASoC; 第 二 部 分 描述 
未 来 的 设计 过 程 一 一 自我 优化 和 自我 验证 。 本 章 所 描述 的 很 多 挑战 的 ， 如 果 将 来 
遇 到 的 话 也 是 机 会 。 我 们 在 文章 中 重点 标识 出 具体 的 挑战 。 


8.2 未 来 的 系统 : 全 自治 片上 系统 


























8.2.1 概述 
SoC 技术 是 微 处 理 器 市 场 的 一 个 延伸 ， 每 年 增长 20% ， 未 来 的 增长 率 将 会 更 


Res 

典型 的 SoC 包括 多 个 异 构 处 理 器 和 控制 器 ， 以 及 多 种 存储 器 (ROM, RF 
和 eDRAM) 。 处 理 器 核 面向 一 种 或 多 种 特定 的 多 媒体 处 理 。 典 型 的 应 用 包括 手 
机 、 数 字 照 相机 、MP3 和 多 种 游戏 设备 。 

另外 一 个 快速 增长 的 市 场 是 自治 芯片 (Autonomous Chip，AC) 。 它 们 具有 很 
小 的 处 理 功 耗 和 存储 能 力 ， 但 是 需要 RF 通信 和 一 些 自 带 的 电源 或 能 源 管 理 。 更 
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复杂 的 AC 可 能 还 包括 一 些 传感器 。 简 单 AC 的 有 RFID: 、 智 能 卡 和 片上 信 
ALK 

最 简单 的 AC 是 被 动 驱动 的 RFID。 它 只 反映 源 RF 的 携带 者 并 且 通 过 携带 者 
的 电源 来 驱动 显示 携带 者 的 也。 比较 复杂 的 例子 如 病人 监测 报警 器 和 20 世纪 
90 年 代 的 灰尘 智能 探测 系统 '** 1 。 它 们 都 是 用 电池 驱动 的 REF 来 广播 ID，ID 通 
过 检 波 传感器 输入 。 

很 多 智能 卡 和 包括 美国 的 VISA、 我 国 香港 的 Octopus Card 在 内 的 银行 卡 ， 
除了 需要 通信 的 卡 以 外 ， 都 使 用 RFID。 最 简单 的 卡 没有 卡 上 的 可 写 存 储 ， 记 录 
只 能 被 集中 更 新 ， 常 基于 Jave Card'”“ 来 启动 。 基 于 一 些 特殊 考虑 ， 有 一 系列 遥 
控 识别 卡 ( 即 RFID) 的 标准 : 

e ISO 10536 ‘AAG [close coupling cards (0 ~1cm)] 

© ISO 14443 近 耦 合 卡 [proximity coupling cards (0 ~ 10cm) | 

e ISO 15693 MFE E [ vicinity coupling (0 ~1m) ] 

未 来 全 自动 的 SoC 或 者 ASoC 是 SoC 和 AC 技术 的 融合 ( 见 表 8. 1) 。 理 论 上 
简单 ， 但 是 工程 技术 却 很 困难 ， 因 为 需要 重新 考虑 处 理 器 的 整体 架构 和 实现 来 优 





















































化 设计 ， 以 便 满 足 低 功 耗 的 要 求 亚 微 瓦 级 。 
表 8.1 ASoC 实例 
系 统 被 动 ID 活动 ID RF 传感器 ASoC 
例子 RFID, fi 单 智 智 能 卡 ， 活 | BREME; RFID + 
能 卡 动 RFID 传感器 
电源 无 短期 电池 电池 集成 电池 
a oe R/W ID + 参数 RW 扩 展 
最 大 存储 量 ROM ID (1KB) (KB) Aon 
RF 尺寸 无 源 的 : 厘米 级 主动 1~10 10 ~20 10 以 上 
计算 无 FSM FSM 1 个 或 多 个 CPU 














人 研究 ASoC 的 动力 来 源 于 智能 微 尘 计划 (Smart Dust Project) 31， 在 20 世纪 
90 年 代 启 动 ， 对 传感器 和 RF 领域 开展 了 具有 重要 意义 的 工作 。 此 项 目 把 具有 
RF 的 传感器 植 人 约 为 lmm 的 微 尘 中 。 它 依靠 AA 级 电池 作 电 源 。 此 项 目的 目标 
在 于 检测 一 种 “事件 ”， 如 移动 目标 或 者 是 一 个 热 信号 。 

ASoC 在 计算 能 力 和 存储 容量 方面 做 了 新 的 扩展 ， 同 时 在 片上 整合 了 一 个 
电源 。 

根据 智能 级 别 ，AC 的 一 个 简单 分 类 如 下 : 

1. 简单 的 在 片上 用 RF 来 标识 自己 (如 RFID). 

2. 对 传 感 吉 检 波 “事件 ”利用 RF 进行 标识 [WOT AE GCE (Smart Dust) 和 
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智能 卡 (Smart Cards) ] 。 

3. 利用 RF 对 结果 的 反馈 来 进行 “事件 ”的 检测 和 处 理 ( 分 类 、 识 别 、 分 析 ) 。 

ASoC 的 数据 处 理 能 力 在 降低 传感器 需要 传输 的 数据 量 方面 很 有 价值 。 它 使 
得 交互 式 计算 成 为 可 能 (如 行星 探测 ) ; 可 以 用 来 在 偏远 地 区 对 稀有 鸟 类 和 其 他 
物种 进行 识别 ; 或 者 是 作为 “药丸 ”用 来 对 肠胃 疾病 进行 诊断 。 当 然 ，ASoC R 
寸 并 不 是 所 有 的 应 用 场景 都 很 重要 。 稀 有 物种 的 “监听 ”设备 可 能 不 关注 尺寸 
大 小 ， 而 且 要 求 有 足够 的 电源 支持 。 那 么 把 ASoC 看 成 是 一 个 工具 箱 ， 为 新 系统 
的 设计 提供 可 配置 的 能 力 来 适应 千变万化 的 环境 和 计算 需求 。 

在 接 下 来 将 介绍 硅 技术 的 演变 、 电 池 和 能 源 方面 的 限制 、 实 现 架构 、 通 信 、 
传 感 锅 和 应 用 。 


8.2.2 技术 


就 像 前 面 介绍 的 ， 接 下 来 的 几 年 里 晶体 管 和 存储 密度 将 会 增长 10 W, 
每 平方 厘米 的 晶体 管 数量 将 达到 数 十 亿 。 由 于 合理 功 耗 的 处 理 器 可 以 用 100 000 
级 的 晶体 管 数 量 来 实现 ， 对 于 ASoC 应 用 来 说 有 很 多 可 能 性 。 

但 是 这 样 的 密度 是 有 代价 的 。 太 小 的 设备 在 传统 的 工作 站 的 实现 中 会 引起 严 
重 的 性 能 问题 。 通 常情 况 下 ， 摊 林原 子 的 差异 (为 了 生产 设备 所 需要 掺 杂 的 原 
THE) 会 导致 设备 之 间 的 延迟 。 带 有 强 电场 的 小 结构 会 导致 可 靠 性 问题 : 导 
体 和 绝缘 体 之 间 的 电 迁 移 。 在 采用 低 功 耗 和 低速 ASoC 的 情况 下 ， 上 述 问题 并 不 
显著 。 对 于 可 使 用 的 ASoC 来 说 ， 最 主要 的 问题 是 电池 的 容量 或 所 能 存储 的 能 
量 。 为 了 处 理 这 个 问题 ， 需 要 回顾 一 下 本 书 第 2 章 所 讨论 的 两 个 关系 ， 相 关 的 硅 
面积 4、 算 法 执行 时 间 7 和 能 量 消 耗 P (公式 中 上 是 常量 ) A 

AT’ =k (8.1) 

EIROA ET RE EIR (aA EE BE) 和 完成 具体 操作 的 执行 时 间 之 间 的 关 
系 。 面 积 越 大 (晶体管 数 量 越 多 ) 速度 越 快 (执行 时 间 越 短 )。 本 书 第 2 章 介绍 
了 执行 时 间 和 功 耗 之 间 的 关系 '”]. 






































TP=E (8.2) 

由 此 可 见 ， 随 着 电压 的 降低 ， 功 耗 成 二 次 方 下 降 但 是 速度 成 直线 下 降 。 但 是 对 于 

晶体 管 来 说 ， 延 迟 和 电压 之 间 是 非 线性 的 关系 。 就 像 本 书 第 2 章 介 绍 的 ， 是 三 次 
方 曲线 : 

P,/P, =(F,/F,)° (8.3) 

所 以 ， 如 果 把 主 频 提升 一 倍 ， 那 么 功 耗 将 提高 到 8 倍 。 当 评估 规划 微 瓦 级 芯片 的 

频率 时 ,， 式 (8.2) 的 适应 性 就 没 那 么 精确 了 。 当 今 最 好 的 功 耗 设计 是 用 1W 的 

开销 达到 1GHz 的 效果 (相当 于 达到 LOOOMIPS) ; 这 也 许 是 乐观 的 情况 。 以 10° 

量 级 来 降低 功 耗 就 得 以 100MHz 或 10MHz 的 量 级 来 降低 频率 。 在 过 去 的 2 年 里 ， 
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传感器 处 理 器 的 设计 几乎 已 经 达到 了 0.5MIPS/MuWi251。 但 是 这 距离 10MHz/ uW 
的 目标 还 是 非常 的 大 ， 硅 缩放 技术 也 许 能 弥补 这 个 差距 。 
挑战 

TP =k 这 一 定理 在 微 瓦 级 还 适用 吗 ? 

这 一 定理 在 普通 计算 条 件 下 是 正确 的 ,但 是 怎么 把 它 扩 展 到 微 瓦 级 呢 ? 需 要 
什么 样 的 电路 和 策略 呢 ? 


8.2.3 功 耗 


设计 稳定 高 效 ASoC 的 关键 在 于 解决 功 耗 和 使 用 寿命 的 问题 ， 这 两 个 问题 都 
和 电源 (电池 ) 有 关 。 电 池 可 以 是 一 次 性 的 也 可 以 是 重复 充电 的 。 对 于 ASC, 
韶 电池 要 从 周围 环境 中 吸收 能 量 。 电 池 的 能 力 以 墓 电 小 时 来 衡量 ,转换 成 1. 5V 
下 的 J(W/S)。 电 池 的 蔓 电 能 力 和 可 充电 性 都 取决 于 体积 ， 包 括 表面 积 和 ASoC 
每 平方 厘米 的 重量 。 

表 8.2 给 出 了 ASoC 用 电池 对 比 ， 是 三 种 常用 的 电池 类 型 : 印 制 电池 (prin- 
ted battery ) 2 和 薄膜 电池 (thin flm)' 可 以 直接 整合 到 ASoC 中 〈 一 般 在 背 
H); 钮 扣 电池 一 般 是 外 设 ， 直 径 在 Lom 以 内 。 印 制 电池 是 通过 在 平滑 的 表面 上 
趾 印 一 些 特殊 的 材料 形成 的 。 薄 膜 电池 是 和 ASoC 一 起 集成 到 硅 片 上 的 。 

表 8.2 ASoC 用 电池 对 比 






































类 型 单位 能 量 /J 可 否 充电 厚度 /pm 
印 制 电池 2/cm? B 20 
薄膜 电池 10/cm? 可 100 
钮 扣 电 池 200 可 500 




















表 8.3 ”能 量 转换 源 ( 2 












































阳光 65mW/cm? 
环境 光线 2mW/cm? 
张力 和 声音 晶体 结构 的 形变 产生 电压 电压 效果 
RF 10V/m 的 电场 产生 16 pW/em? 的 天 线 本 书 参 考 文献 [255] 
温差 ( 珀 尔 帖 效应 ) 40hW 每 5 温差 需要 有 温差 





挑战 
LA lem? x 100um 的 体积 能 提供 100J 以 上 能 量 的 电池 技术 才 可 以 集成 到 硅 





片上 6 
很 多 应 用 都 急需 微 电 池 技术 。 
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能 量 的 来 源 有 很 多 途径 (部 分 见 表 8.3)。 一 般 情况 下 能 量 源 的 体积 越 大 电 
量 就 越 大 ， 在 很 大 程度 上 还 取决 于 系统 的 环境 是 否 适 宜 吸收 能 量 。 

假设 ASoC 消耗 InW 的 能 量 〈 工 作 情 况 下 ) ， 所 需要 的 充电 周期 有 所 变化 
( 见 图 8.1); 占 空 比 在 影响 ASoC 的 服务 能 力 方面 起 到 了 很 重要 的 作用 ， 前 提 是 
被 动 传 感 器 能 侦 测 到 信号 然后 再 启动 系统 进行 分 析 。 

挑战 ”利用 现 有 的 可 用 技术 ， 从 更 多 的 能 量 源 转换 电能 。 

到 目前 为 止 ， 对 于 能 量 转换 ( 见 图 8.2) ， 大 家 的 关注 点 还 局 限于 光 和 RF 
技术 (如 RFID)。 那 么 就 需要 对 取舍 进行 全 面 的 研究 ， 特 别 是 在 微 瓦 级 转换 时 。 
过 去 ， 认 为 这 种 低能 耗 的 转换 没有 使 用 价值 ， 但 是 对 于 ASoC 来 说 这 是 很 有 意 
义 的 。 
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图 8.1 对 于 1xW 的 不 停 消 耗 功率 最 大 的 充电 时 间 间 隔 











功率 P 





面积 4 
时 间 7 


图 8.2 面积 、 时 间 和 功 耗 之 间 的 关系 


8.2.4 全 自治 片上 系统 的 外 形 
ASoC 逻辑 结构 如 图 8. 3 所 示 ， 包 括 电源 、 传 感 器 (一 个 或 多 个 ) 、 主 计算 
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机 、 存 储 单元 及 通信 模块 。ASoC 与 之 前 RFID 传感器 的 不 同 之 处 就 在 于 有 计算 
能 力 和 存储 单元 。 正 由 于 这 些 功能 使 得 ASoC 具有 分 析 和 识别 能 力 ， 在 与 外 界 交 
互 之 前 可 以 做 出 综合 的 反应 。 




































































输入 请- 
感 器 B 2 
RF 或 光 
计算 机 和 存储 器 、| 输出 -= 









































图 8.3 ASoC 逻辑 结构 


在 物理 上 ，ASoC 只 是 一 个 硅 片 ， 表 面积 在 lem’ 左右 。 表 面积 的 大 小 受 限 于 


















成 本 ， 而 成 本 又 由 缺陷 密度 决定 。 现 有 的 技术 对 于 lem? 或 稍 小 一 些 面积 的 硅 片 ， 
可 以 保证 非常 好 的 优良 率 。 对 于 lem 以 下 硅 片 ， 成 本 主要 集中 于 测试 和 处 理 ， 
所 以 对 于 大 多 数 应 用 来 说 首选 还 是 。。 120 1500 
lom?。 因 受 限 于 晶片 的 制造 条 件 ， § 0p 二 eta Eo 
硅 片 的 厚度 一 般 是 600pm。 在 背面 E Vp +900 8 
增加 一 个 薄膜 电池 会 增加 50pm 的 R O Too 江 
厚度 。 最 终 的 ASoC — ME 65mm’, “ Jao & 
重 0.2g。 由 图 8.4 可 知 , eR ， 二 
10 亿 的 晶体 管 。 这 些 晶体 管 构 成 了 9 6 SD 
传感器 、 计 算 单 元 、 存 储 单元 和 特征 尺寸 

RF， 电 池 在 背面 。 图 8.4 ITRS?” 晶体 管 密度 预测 


8.2.5 计算 机 模型 和 存储 


对 于 功率 只 有 1pW 的 计算 机 ， 其 微 体系 结构 与 传统 的 处 理 器 有 以 下 很 大 的 
XH 

1. 异步 时 钟 。 最 少 化 数据 状态 的 转换 来 降低 动态 功 耗 。 在 整个 时 钟 系统 中 ， 
可 能 只 有 1/10 的 异步 转换 需求 。 

2. VLIW 的 使 用 。 由 于 晶体 管 数 量 不 限 而 功 耗 受 限 ， 所 以 要 尽量 利用 所 有 可 
用 的 并 行 度 来 提高 性 能 。 
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3. Beckett 和 Goldstein”! 已 经 证 明 通过 小 心 的 设计 (减少 当前 的 活跃 驱动 和 
管理 的 漏 损 率 ) ， 有 可 能 把 整个 硅 片 的 功 耗 减少 到 一 个 区 域 的 功 耗 。 这 会 牺牲 最 
大 的 工作 时 钟 频 率 ， 但 是 额外 的 面积 可 以 通过 并 行 化 体系 结构 来 抵消 掉 。 

4. 最 小 的 简单 缓存 系统 。 如 果 处 理 器 每 0. 1ps 处 理 一 次 ， 而 存储 单元 的 访 
问 延迟 在 1 ~10hs 之 间 ， 那 么 存储 单元 和 处 理 器 具有 比较 接近 的 时 间 周 期 。 小 型 
的 指令 缓存 和 数据 管理 缓冲 器 更 适合 于 特定 应 用 。 

存储 单元 是 系统 不 可 缺少 的 组 成 部 分 ， 因 为 即使 没 电 了 还 是 会 记录 数据 。 当 
前 的 存储 密度 可 以 到 达 非 常 昔 越 的 访问 速度 一 10ks， 而 且 ASoC 的 存储 能 力 在 
16 ~64MB 之 间 。 

基于 当前 的 配置 技术 ,闪存 和 CMOS 技术 非常 不 兼容 ， 并 且 受 限于 片 外 技术 
的 实现 。 但 是 ， 现 在 有 很 多 闪存 的 变 体 ， 专 门 为 了 兼容 通用 的 SoC HR, SO- 
Nos’?! 是 可 永久 存储 的 例子 ，Z-RAMI251 是 代 赫 DRAM 的 例子 。 这 两 者 都 不 受 传 
统 内 存 重 写 时 钟 的 限制 (大约 100 000 次 写 )。 

即使 内 存 不 存储 时 没有 功 耗 也 不 会 被 使 用 ， 因 为 当 它 被 访问 时 能 量 消耗 随 着 
活跃 数据 存储 空间 的 大 小 按 正比 上 升 。 更 确切 地 说 ， 是 与 每 一 位 和 字 单 元 相连 接 
的 存储 单元 数量 (假设 是 二 维 的 结构 ) 按 正比 。 在 ASoC 里 面 ， 这 意味 着 存储 单 
元 可 以 分 成 更 小 的 部 分 ， 使 得 功 耗 和 访问 时 间 都 达到 最 有 效 。 


8.2.6 RF 和 激光 通信 


ASoC 的 最 大 的 挑战 之 一 就 是 通信 。 比 较 常 用 的 两 种 途径 有 激光 和 RF 通信 。 
挑战 

极 低 功 耗 的 处 理 器 在 微 瓦 的 功率 大 概 能 达到 传统 处 理 1/100 的 性 能 。 

这 就 需要 从 晶体 管 级 (最 小 化 静态 功 耗 ) 到 新 的 电路 技术 ( 阐 值 以 下 或 者 
隔 热 的 电路 ) 对 人 处理 器 设计 重新 进行 设计 、 新 的 时 钟 和 全 新 的 体系 架构 。 
8.2.6.1 激光 

激光 和 硅 的 融合 是 一 门 新 兴 的 10 
技术 。 最 近 的 一 项 研究 * 利用 硅 波 
导管 把 激光 器 直接 连接 到 硅 片 上 。 




















功率 /nHW 


利用 激光 融 实 现 光 通 信和 具有 可 能 性 
的 同时 也 有 很 多 困难 。 





光 传 感 器 非常 灵敏 [8561;，1kW 
的 功率 能 达到 100MHz ( 见 图 8.5). 














困难 在 于 信息 接收 受到 周围 环境 光 001 
线 CRE) 的 影响 。 一 般 情况 下 信 
号 的 强度 要 高 于 周围 干扰 的 10 倍 以 图 8.5 图 片 信号 敏感 度 与 脉冲 宽度 的 关系 


脉冲 宽度 /ns 
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上 。 男 外 一 个 难点 是 光束 的 发 散 ( 特别 是 在 激光 二 极 管 中 )。 这 需要 利用 光学 原理 
来 校准 发 散 的 光束 "| 。 

光束 不 能 太 窗 (聚焦 )， 因 为 通信 接收 端 必须 在 时 间 和 空间 上 完全 同步 。 对 
于 相干 的 窄 光 束 ， 光 必须 散射 以 容忍 源 和 接收 端 之 间 传 播 的 振荡 光 振荡 会 在 d 距 
离 内 导致 垂直 或 水 平方 向 的 a 角 移 位 。 这 就 导致 接收 端 8 的 不 确定 性 。 所 以 ， 接 
收 端 必须 具有 一 个 RxR 的 信号 接收 区 域 ， 如 图 8. 6 所 示 。 


接收 端 
图 8.6 ” 光 通 信 的 信号 接收 区 域 与 距离 









































因为 在 x 的 负 轴 和 y 的 负 轴 的 情况 下 ，R >6 =ad， 信 号 的 丢失 率 为 (1/d?)。 

考虑 到 以 上 限制 ， 利 用 激光 自由 空间 (而 不 是 光纤 ) 进行 通信 ， 对 于 ASoC 
来 说 ， 很 可 能 会 成 为 第 二 值得 研究 的 领域 。 
8.2.6.2 RF 
智能 微 尘 计划 的 研究 工作 几乎 是 这 个 方面 最 有 意义 和 最 有 用 的 '“*]。 它 们 
把 低 功 耗 的 RF 集成 到 一 个 SoC 中 。 它 们 的 研究 成 果 可 以 总 结 如 下 : 

1. 此 可 行 性 研究 实现 了 一 个 无 线 电 收 发 机 ， 可 以 在 20m 的 距离 25nJ/bit 的 
功 耗 下 ， 达 到 100Kb/s 的 速率 。 相 当 于 10" bit/ (J/m), 1J 的 电池 能 量 可 以 使 得 
1Gbit 的 数据 传输 1m" 。 

2. 以 每 米 为 基础 来 表示 所 传输 的 数据 量 (如 上 所 述 )， 似乎 表明 了 在 信号 损 
失 和 传输 数据 之 间 有 一 个 线性 关系 。 其 实 这 是 不 对 的 。 对 于 光 来 说 ，RF 信号 的 强 
度 至 少 是 传输 距离 d 的 二 次 方 的 函数 ， 而 且 它 还 是 频率 了 的 函数 。RF 信和 号 顶 多 与 天 
[1A(f4?)] 成 比例 。 在 很 多 情况 下 ， 信 和 号 会 被 反射 并 以 多 种 不 协调 的 模式 到 达 接 收 
端 。 这 种 多 路 径 的 信号 意味 着 额外 的 信号 损失 。 通 常 被 表示 为 有 [IC )] (dv 
d)". HEF, d EEES (通常 为 lm) , n 通常 为 3 或 4。 

3. 以 低 于 lmW 的 功率 进行 通信 不 但 可 行 而 且 可 能 会 商业 化 。 对 于 典型 的 低 
于 1% 的 占 空 比 ， 平 均 消 耗 1~10uW 的 能 量 。 

4. 另外 ， 还 有 大 数据 包 开销 (包括 启动 和 同步 、 启 动 信号 、 地 址 、 包 长 度 、 
加 密 和 纠 错 ) ， 短 消息 只 有 3% 的 有 效 载荷 ， 所 以 生成 较 少 数量 的 较 长 数据 包 会 
更 好 。 

5. 根据 2 和 3 的 分 析 ， 系 统 设 计 者 会 尽 可 能 地 减少 信号 传输 的 次 数 ， 并 尽 
可 能 地 增加 信号 数据 包 的 有 效 载 集 。 
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8.2.6.3 ”激光 和 RE 的 通信 能 

表 8.4 给 出 了 通信 技术 对 比 ， 总 结 并 对 比 了 激光 和 RF 每 焦耳 的 通信 和 能力 
(数据 量 或 者 数据 位 数 ) 。 虽 然 激 光 通 信 每 焦耳 可 传递 更 多 的 数据 ， 但 是 它 本 身 
的 局 限 性 限制 了 它 的 使 用 。 











表 8.4 通信 技术 对 比 


























源 损 FE 10m 的 通信 和 能力/[biv(Jjm) ] fe È 
激光 距离 ;外 界 光 干扰 10!° ~ 102 
1GHz 的 RF 距离 ;多 通道 ， 频 率 108 ~ 10! [63, 181] 
挑战 
可 适 配 的 最 优化 通信 和 包括 RF 的 超 定向 天 线 和 激光 的 可 自动 适 配 的 特殊 同步 
机 制 及 传送 。 


协议 需要 支持 定向 短波 的 初始 化 传送 ， 以 便 激活 接收 端 和 发 送 端 ， 来 调整 到 
同一 直线 上 达到 最 优 的 传送 路 径 。 
8.2.6.4 ASoC 网 络 

在 很 多 情况 下 ， 多 个 ASoC 组 成 一 个 网 络 ， 中 间 经 过 多 个 节点 把 接收 端 和 
发 送 端 连接 到 一 起 。 对 于 这 样 的 系统 ， 为 了 实现 可 连接 ， 节 点 之 间 的 距离 有 一 
个 最 大 的 上 限 。 这 个 最 大 上 限 与 路 径 损 失 因 素 有 关 。 对 于 RF， 智 能 微 侍 做 的 
实验 证 明 ， 随 着 从 2 增加 到 4， 这 个 最 大 的 上 限 距离 会 从 1km 缩短 为 10m。 
还 有 很 重要 的 一 点 ， 随 着 数据 位 在 网 络 中 的 传输 会 有 同步 开销 (有 时 会 很 
大 ) 。 时 间 和 空 = 间 的 同步 需要 适 配 和 发 送 的 开销 。 仅 对 于 时 间 同 步 ， 每 条 信息 
大 约 需 要 100bit。 理 想 情 况 下 ， 系 统 应 该 具有 数量 少 但 比较 长 的 信息 来 最 小 化 
开销 。 
挑战 

通信 技术 需要 最 小 化 同步 开销 (包括 时 间 和 空间 )。 

为 了 利用 短 消息 进行 有 效 的 通信 ， 至 少 要 把 同步 开销 减少 到 大 约 10s 的 位 
传输 。 


8.2.7 MER 


8.2.7.1 视频 

视频 和 动态 传 感 带 一 般 由 光敏 二 极 管 阵列 组 成 ， 阵 列 大 小 从 64 x64 到 4000 x 
4000 甚至 更 大 ” 。 每 一 个 二 极 管 代表 图 片 中 的 一 个 像素 (针对 黑白 电子 图 片 ) 。 
对 于 彩色 和 多 谱 图 片 ， 需 要 三 个 甚至 更 多 个 二 极 管 来 代表 一 个 像素 。 为 了 节省 功 
耗 和 减少 状态 的 转换 ，ASoC 实现 视频 处 理 器 时 对 于 阵列 中 的 每 一 个 像素 可 能 只 
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用 一 个 二 极 管 单元 。 

对 于 其 他 的 图 片 识别 和 运动 侦查 识别 ， 非 常 有 必要 找到 与 参考 图 片 一 致 的 地 
方 或 者 图 片 中 的 某 一 帧 块 相 对 于 前 一 张 图 片 的 运动 方向 1 。 在 两 张 图 片 中 适 配 
出 相同 的 场景 或 轮廓 需要 把 图 片 分 割 成 不 同 的 帧 块 。 然 后 逐 块 地 与 参考 图 片 或 前 
一 张 图 片 进行 螺旋 式 的 比较 。 每 一 个 比较 包括 计算 绝对 差 之 和 (Sum of Absolute 
Difference, SAD) 指数 。 当 具有 最 小 SAD 指数 的 图 片 被 找到 ， 识 别 就 结束 。 但 
是 图 片 的 识别 应 该 在 训 秒 级 ， 对 于 视频 传 感 顺 来 说 ， 挑 战 就 在 于 要 满足 相关 快速 
移动 目标 的 计算 需求 〈 见 图 8.7) 。 

目标 区 域 有 颜色 (RGB 到 HIS) 
128x64 像 素 阵列 


用 SAD 阵 列 描 匹配 32 个 参考 模 影像 阵列 
Ye (每 块 432bib) 





30f/s， 消 耗 1xW 能 量 


妇 8.7 视觉 处 理 


很 显然 ， 图 片 传感器 可 以 集成 到 ASoC 中 ， 利 用 光学 把 不 同 的 对 象 集中 成 不 
同 的 光束 可 以 改善 性 能 。 
8.2.7.2 音频 
如 上 所 述 ， 硅 晶体 的 压 电 效应 ， 可 以 用 来 记录 声音 ， 这 是 很 多 声音 识别 系统 
和 扩 音 系统 的 基础 。 另 外 ， 对 于 某 些 ”语言 处 理 器 ， ， 
特殊 的 应 用 ， 如 助听器 ， 有 时 候 更 重 。 CF i 
要 的 是 模拟 耳 采 的 功能 。 很 多 耳蜗 片 ap 
上 系统 已 经 被 实现 ， 通 过 使 用 一 串 低 信人 Y 
通 的 滤波 器 仿真 耳蜗 的 功能 。 在 一 个 


2 Se 























硅 晶 体 的 实现 中 ，360 个 由 双向 低 A pr 
通 滤波 器 组 成 的 单元 排 成 一 个 阵列 。 NG) 
当 语 音 识别 需要 的 时 候 ， 耳 蜗 模 式 会 


被 选择 : 它们 组 成 听觉 系统 的 前 端 信 
号 处 理 部 分 ， 分 割 出 声波 并 转换 成 耳 
才能 识别 的 频率 范围 ( 见 图 8. 8) 。 

由 于 可 听见 的 声音 频率 相对 比较 到 8.8 音频 处 理 (图 片 来 自 维基 百 科 ) 
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低 ， 所 以 对 于 ASoC 几乎 没有 实时 的 限制 。 
8.2.8 动力 、 飞 行 及 果 晶 


当然 ， 最终 的 ASoC 不 但 可 以 移动 还 可 以 飞行 。 每 次 仅 0. 2g 的 载重 需求 ， 
对 于 具有 MEMS 的 ASoC 来 说 应 该 问题 不 大 。 利 用 MEMS 和 纳米 发 动机 可 以 在 表面 
上 固定 和 移动 ASoC。 在 表面 上 移动 需要 的 能 量 ， 只 是 启动 (加 速 ) 和 克服 摩擦 力 
所 需 的 能 量 。1]J 的 能 量 转化 成 107erg8 的 功 。lerg 是 移动 Lem 重 1g 的 物体 所 需要 
的 能 量 。 所 以 ， 较 低频 率 〈 低 于 1% 的 占 空 比 ) 的 慢 运 动 (大 约 1 ~2em/s), 不 
会 导致 重大 的 能 量 消耗 。 

飞行 的 动力 系统 是 目前 最 复杂 的 。 已 经 有 很 多 针对 小 型 自动 飞行 器 的 动力 研 
BE?! 。 飞 行 对 于 ASoC 来 说 有 许多 挑战 : DURE. 
视觉 识别 ( 避 开 障碍 物 )、 环 境 ( 风 等 ) 及 通 
言 。 虽 然 可 飞 的 ASoC 还 很 遥远 ， 但 是 这 种 系统 
和 任何 小 果 晶 一 样 具 有 相同 的 可 行 性 :2] 。 

非常 有 趣 的 是 ， 这 里 介绍 的 高 要 求 的 
ASoC ， 与 像 果 晶 这 样 的 生物 来 比 〈 见 图 8.9)， 
还 是 显得 非常 保守 的 。 果 蝇 一 般 长 2 Smm， 具 
有 2mm 的 体积 ， 体 重 不 超过 20mg， 通 常 只 有 
1 个 月 的 生命 周期 。 

但 是 果 晶 的 视觉 处 理 能 力 非 常 惊 人。 它 有 
800 个 视觉 接收 单元 ， 每 个 单元 具有 8 个 紫外 线 的 彩色 感光 器 (每 个 感光 器 使 用 
200 000 神经 元 ， 总 共 约 有 100 万 个 神经 元 ) 。 据 估计 ， 它 的 视觉 系统 功能 比 人 类 
的 强 10 倍 。 再 加 上 嗅 党 、 听 觉 、 学 习 / 记 忆 ， 以 及 与 其 他 节点 (R) 的 通信 ， 
它 简 直 是 一 个 完美 的 ASoC。 它 的 飞行 能 力 可 以 进一步 描述 成 : 翅膀 每 秒 可 振动 
220 次 ， 每 秒 可 飞行 10cm， 可 以 在 50ms 内 旋转 90。。 它 的 能 量 来 自 腐 烂 的 植物 
果实 。 

现在 已 经 有 关于 研制 具有 控制 系统 的 机 器 苍蝇 来 模拟 真实 苍蝇 的 提 
WS) | 很 明显 ， 这 里 介绍 的 基于 硅 的 ASoC 设计 者 还 有 很 多 地 方 需要 从 果 晶 
身上 学 习 。 
挑战 

传感器 的 小 型 化 及 与 测量 温度 、 拉 力 、 移 动 和 压力 的 传感器 一 体 化 。 

目前 ， 都 假设 这 些 基 本 单元 都 在 片 外 ， 而 且 比 较 大 。 问 题 在 于 如 何 把 它们 小 
型 化 并 集成 到 ASoC 中 。 























图 8.9 果 蝇 (图 片 来 自 维基 百科 ) 








(S) erg: 尔格 ， lerg=1077J, 
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8.3 ”未 来 的 设计 流程 ， 自 我 优化 和 自我 验证 


8.3.1 动机 


本 章 剩 下 的 部 分 介绍 改进 包括 ASoC 在 内 的 高 级 SoC 的 设计 方法 。 

好 的 设计 是 非常 有 效 的 ， 而 且 能 满足 需求 的 。 通 过 优化 提高 效率 ， 同 时 要 通 
过 验证 来 证 明 需 求 被 满足 。 不 幸 的 是 ， 现 有 的 很 多 设计 要 么 没有 效率 ， 要 么 不 正 
确 ， 甚 至 是 既 没有 效率 也 不 正确 。 

优化 和 验证 在 设计 的 所 有 抽象 级 别 中 都 被 认为 是 非常 重要 的 。 最 近 ITRS 把 
“成 本 驱动 的 设计 优化 ”和 “验证 和 测试 ” 列 为 设计 中 三 大 挑战 之 中 的 两 个 ， 剩 
下 的 一 个 是 “ 复 用 ”。 

未 来 如 何 满足 这 三 大 挑战 呢 ? 假如 在 设计 中 用 到 的 结构 模块 具有 自我 优化 和 
验证 的 能 力 。 那 么 一 个 新 的 设计 可 以 通过 以 下 步骤 完成 ; 

1. 抽取 出 设计 所 需要 的 具体 属性 ,来 定义 具体 的 需求 ， 如 功能 、 准 确 度 、 
功 耗 及 倾向 的 具体 技术 。 

2. 开发 或 选择 一 种 能 满足 需求 的 架构 ， 并 研究 针对 具体 结构 模块 的 实例 。 

3. 首先 确定 现 有 的 模块 是 否 能 满足 需求 ; 如 果 不 能 ， 要 么 开始 一 个 新 的 研究 ， 
要 么 开发 可 优化 的 并 且 可 验证 的 结构 模块 ， 或 者 是 把 需求 调整 成 可 以 实现 的 功能 。 

4. 在 确认 经 过 优化 和 验证 后 的 设计 能 满足 需求 以 后 ， 规 划 优 化 和 验证 的 步 
又 ， 来 确保 设计 能 实现 自我 优化 和 自我 验证 的 功能 。 

5. 一 般 化 具体 的 设计 和 相应 的 自我 优化 和 自我 验证 的 能 力 ， 来 增加 它 的 适 
用 性 和 可 复 用 性 。 

核心 的 理念 就 是 在 设计 的 过 程 中 保证 可 以 自我 优化 和 自我 验证 : 从 具有 这 种 
特性 的 组 件 开 始 ， 最 后 综合 成 的 设计 也 具有 自我 优化 和 自我 验证 的 特性 。 下 面 将 
会 更 多 地 介绍 这 种 方法 的 具体 细节 。 


8.3.2 概述 


通过 优化 可 以 把 显著 (obvious) 但 无 效 的 设计 改 成 有 效 但 不 再 显著 的 设计 。 
然后 通过 验证 可 以 证 明 ， 如 优化 保留 了 满足 前 提 条 件 的 功能 行为 。 在 设计 中 常 犯 
的 一 个 错误 是 在 优化 过 程 中 忽略 了 前 提 条 件 。 验 证 还 可 以 用 来 检验 设计 是 否 具 有 
满足 相关 标准 的 具体 特性 ， 如 安全 性 和 保密 性 。 

当 优化 和 验证 与 通用 设计 结合 时 ， 一 般 通 过 三 种 主要 途径 来 支持 复 用 。 第 
一 ， 经 过 优化 之 后 的 通用 设计 ， 提 供 具体 的 细节 介绍 ， 使 得 设计 者 能 关注 现 有 的 
优化 选项 及 他 们 的 效果 。 第 二 ， 通 用 设计 提供 多 个 层面 的 设计 说 明 ， 从 算法 、 结 
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构 到 具体 的 技术 细节 。 第 三 ， 验 证 过 的 优化 流程 ， 增 强 了 原 设 计 的 正确 性 。 在 设 
计 被 复 用 之 前 ， 必 须 先 保证 正确 性 。 一 旦 出 现 错误 ， 就 可 以 确定 到 底 是 验证 本 身 
的 错误 ， 还 是 使 用 设计 的 环境 超出 了 验证 的 有 效 范围 。 

要 以 更 广义 的 角度 来 看 待 自我 优化 和 自我 验证 。 一 种 方法 是 规划 一 个 设计 
(可 以 包括 硬件 和 软件 ) 和 具体 实现 应 该 具有 的 核心 属性 。 这 些 属性 包括 功能 的 
正确 性 、 类 型 的 通用 性 、 计 算 上 游 和 下 洪 异 常 的 避免 等 。 描 述 可 以 包括 借助 特殊 
工具 在 本 地 或 远程 对 设计 进行 优化 和 验证 的 具体 方法 。 很 多 方法 都 可 以 借助 有 效 
的 上 下 文 信息 而 应 用 到 自我 优化 和 自我 验证 中 ， 如 脚本 驱动 的 技巧 和 机 器 学 习 的 
步 又。 设计 者 可 以 致力 于 优化 和 验证 特殊 的 部 分 ， 如 想 通 过 最 小 的 设计 来 计算 
AES, FH 512 位 的 密 钥 在 SOOMHz 的 频率 下 加 密 128 位 的 数据 流 。 

布局 前 后 的 上 下 文 如 表 8. 5 所 示 ， 推 荐 的 设计 流程 在 发 布 前 后 都 包含 自我 优 
化 和 自我 验证 。 发 布 前 ， 编 辑 生 成 一 个 初始 化 的 实现 和 它 的 特征 描述 。 特 征 描述 
包括 设计 已 有 的 优化 和 验证 是 如 何 进行 的 ， 还 包括 进一步 优化 和 验证 的 因素 ; 这 
些 优化 的 因素 可 以 在 系统 调度 之 后 运行 时 进行 ， 来 改善 有 效 性 和 正确 性 。 

R85 布局 前 后 的 上 下 文 









































布 局 前 布 局 后 
焦点 上 下 文 设计 工具 环境 ， 静 态 设计 效率 的 操作 环境 ， 动 态 
获取 上 下 文 来 自 于 影响 工具 环境 的 参数 来 自 于 输入 数据 ， 如 传感器 
优化 、 验 证 优化 、 验 证 布局 前 的 静态 设计 根据 条 件 优 化 
规划 规划 布局 前 的 优化 、 验 证 规划 如 何 满足 布局 后 的 目标 
外 部 控制 频繁 不 频繁 








自我 优化 要 基于 上 下 文 进行 。 在 发 布 之 前 ， 上 下 文 是 设计 工具 的 环境 ;通过 
制定 可 以 改变 设计 工具 的 参数 来 设置 上 下 文 。 另 外 自动 化 能 力 ， 自 我 改善 的 同 
时 ， 还 要 努力 计算 出 如 何 组 合 组 件 和 工具 得 到 最 能 满足 需求 的 设计 ， 设 计 者 可 以 
随意 地 控制 工具 来 确保 这 种 自我 优化 和 自我 验证 在 正确 的 方向 上 进行 。 相 比 之 
下 ,在 发 布 之 后 这 种 额外 的 控制 就 会 少 很 多 ， 如 当 设计 是 飞行 需 的 一 部 分 时 。 总 
之 ， 发 布 前 的 任务 非常 具有 战略 意义 ， 要 能 提前 预测 出 在 运行 过 程 中 可 能 发 生 的 
事故 ;发 布 之 后 的 任务 主要 在 于 战术 ， 必 须要 在 可 行 的 行为 集中 选择 合适 的 操作 
来 应 对 不 断 变 化 的 运行 时 的 上 下 文 。 

这 个 方法 主要 有 三 个 好 处 。 第 一 ， 通 过 自动 化 验证 过 程 ， 可 以 提高 对 正确 性 
和 可 靠 性 的 信心 。 第 二 ， 通 过 自动 化 优化 过 程 和 扩展 运行 时 系统 的 自 适应 性 可 以 改 
善 设计 的 有 效 性 。 第 三 ， 通 过 使 能 设计 的 复 用 、 优 化 和 验证 ， 可 以 提升 生产 率 。 

但 是 ， 采 用 系统 的 设计 复 用 ， 特 别 是 当 包含 自我 优化 和 目 我 验证 时 ， 比 只 做 
一 次 性 的 设计 需要 更 多 的 初始 化 工作 。 设 计 者 需要 妥善 组 织 、 生 成 并 记录 设计 的 
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细节 ， 直 到 复 用 值得 花 时 间 做 为 止 〈 见 图 8.10), 。 此 外 ,在 发 布 之 后 需要 很 大 的 
开销 来 支持 优化 和 验证 。 但 是 ， 从 长 远 来 看 ， 在 可 复 用 和 适用 性 设计 方面 的 努力 
都 会 在 设计 的 有 效 性 和 生产 率 上 获得 很 大 的 收益 。 

A 





累计 设计 工作 量 











新 设计 的 数量 
图 8.10 设计 工作 : 复 用 的 效果 





8.3.3 部 署 前 


在 部 署 之 前 ,设计 者 需要 有 预期 设计 的 特征 描述 ， 并 且 有 构建 这 些 建 模块 
和 它们 特性 的 途径 。 任 务 是 开发 一 种 架构 来 定义 被 选 定 的 模块 如 何 被 实例 化 并 
组 合生 成 一 个 初始 设计 ， 不 但 要 满足 需求 ， 同 时 还 能 在 部 署 后 的 运行 过 程 中 被 
进一步 地 优化 。 必 须要 仔细 认真 地 规划 部 署 后 的 优化 和 验证 ,来 避免 不 可 挽回 
的 代价 。 

假设 在 部 署 前 编译 时 ， 有 以 下 情况 : 

1. 现 有 的 计算 资源 足够 支持 设计 和 工具 ; 

2. 但 是 ， 可 做 的 优化 和 验证 却 有 限 。 例 如 ， 一 些 对 优化 有 用 的 数据 只 有 在 
运行 时 才 知 道 ， 而 且 如 果 计 算出 这 些 数据 所 有 可 能 的 值 也 不 现实 。 
挑战 

获取 设计 和 上 下 文 的 组 合 描述 在 不 同 层次 的 抽象 ， 包 括 优 化 和 验证 的 特性 。 

组 合 是 一 种 非常 方便 的 复 用 方法 ， 但 是 它 并 不 是 最 直接 的 方法 ， 不 同 于 采用 
像 数据 流 这 样 的 基本 的 通信 方法 。 尤 其 是 在 组 合 异 构 组 件 之 前 ， 可 能 需要 转换 来 
支持 通用 通信 和 同步 基础 设施 。 系 统 级 的 设计 创作 非常 具有 挑战 性 ， 因 为 不 但 设 
计 本 里 是 组 合 的 ， 而 且 对 应 的 优化 和 验证 也 同样 是 组 合 的 。 

举 一 个 简单 的 例子 ， 假 设 位 加 法 器 的 两 个 操作 数 中 的 一 个 是 常数 ， 它 的 值 
在 部 署 之 后 运行 时 才 知道 ， 想 利用 常数 传播 来 优化 这 个 加 法 咒 。 但 是 ， 要 提前 计 
算出 所 有 2" 个 可 能 的 配置 是 很 不 现实 的 ， 除非 n 的 数值 比较 小 。 幸 运 的 是 ， 如 
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果 针 对 位 片 架 构 ， 那 么 就 足够 提前 计算 出 位 中 每 位 仅 有 的 2 个 配置 ， 在 运行 时 
如 果 已 经 知道 相应 的 值 ， 那 么 合适 的 配置 就 可 以 在 正确 的 时 间 放 置 到 正确 的 位 
g pr E 

设计 者 可 能 需要 优先 排列 或 修改 相应 的 需求 直到 找到 可 行 的 实现 。 例 如 ， 当 
需要 最 优 的 有 效 功 耗 设计 来 满足 特殊 的 定时 约束 或 者 用 最 小 的 设计 来 满足 数字 精 
度 。 其 他 的 一 些 因 素 ， 如 安全 性 和 保密 性 ， 可 能 同样 需要 考虑 到 。 

假设 部 署 前 优化 是 为 了 在 将 来 部 署 之 后 的 适当 情况 下 进一步 进行 优化 ， 以 下 
是 一 些 在 部 署 之 前 可 以 做 的 优化 的 例子 : 

1. 选择 一 个 可 以 实现 设 
计 的 电路 技术 。 比 较 通 用 的 
两 种 技术 是 ASIC 和 FPGA。 
技术 的 选择 在 于 设计 量 和 灵 
活性 ( 见 图 8.11)。 例 如, Æ £ 
F (Cell) 的 ASIC 更 倾向 于 
减少 设计 量 ， 因 为 它们 有 大 
量 不 可 重 现 的 设计 成 本 。 而 
FPGA 是 另 一 种 围绕 结构 性 的 
ASIC 的 方法 。ASIC 技术 可 以 体积 
用 来 扩展 常用 指令 ”和 可 配 图 8.11 FPGA 和 ASIC 技术 的 成 本 和 体积 对 比 
置 的 缓存 '" 来 实现 自 适应 指 
令 的 处 理 器 ， 所 有 的 可 配置 选项 必须 在 制造 之 前 是 可 知 的 。 自 适应 指令 的 处 理 需 
也 可 以 基于 FPGA 技术 实现 ”3 1， 可 以 使 它们 以 速度 和 面积 作为 开销 来 支持 可 
配置 的 同时 具有 更 多 的 灵活 性 。 

2. 为 可 配置 单元 选择 粒度 和 同步 规则 。 当 前 的 商用 FPGA 都 是 具有 一 个 或 
多 个 全 局 时 钟 的 细 粒 度 设备 。 但 是 也 出 现 了 一 些 其 他 的 结构 ， 如 包含 多 位 ALU 
组 成 的 可 以 并 行 执行 阵列 的 粗 粒 度 设备 ”1 和 基于 同步 技术 来 提高 扩展 性 的 结 
Beg?) 。 一 般 情 况 下 ， 细 粒度 设备 具有 更 好 地 通过 定制 来 很 好 地 满足 需求 的 机 会 。 
例如 ， 如 果 需 要 一 个 9 位 的 ALU，FPGA 中 9 个 位 级 的 单元 可 以 通过 配置 来 组 成 
9 位 的 ALU。 对 于 包含 8 位 ALU 的 粗 粒度 设备 ， 则 需要 两 个 这 样 的 单元 。 但 是 ， 
细 粒 度 设备 在 速度 、 面 积 和 功 耗 等 方面 具有 更 大 的 开销 ， 因 为 细 粒 度 设备 具有 更 
多 可 配置 的 资源 。 相 反 ， 粗 粒度 设备 由 于 可 扩展 性 差 ， 开 销 也 小 。 

3. 对 于 支持 传统 指令 的 指令 处 理 器 71 ， 通 过 选择 传统 指令 的 粒度 可 在 速 
度 和 面积 之 间 达 到 比较 好 平衡 。 粗 粒度 的 传统 指令 比 细 粒度 的 速度 快 但 是 需要 更 
多 的 面积 。 例 如 ， 如 果 使 用 (a) 一 条 粗 粒 度 的 传统 指令 或 者 (b) 50 条 细 粒 度 
的 传统 指令 ， 可 达到 相同 的 效果 。 那 么 ，(a) 需要 更 少 的 指令 预 取 / 译 码 操作 ， 














oa 
Pa 
oa 
a 
2 









ASIC 


7 
- 
7 
lo 

















第 8 章 RBA. 未 来 的 挑战 257 





性 能 一 般 比 较 快 ， 而 且 有 更 多 机 会 来 定制 传统 指令 来 实现 具体 的 需求 。 但 是 ， 由 
于 指令 粒度 越 大 ， 专 用 性 越 强 ， 粗 粒度 传统 指令 的 复 用 机 会 也 就 越 少 。 

4. 通过 改变 处 理 单元 的 数量 、 流 水 线 的 级 别 及 每 个 处 理 单元 之 间 的 任务 共 
享 度 来 改变 并 行 度 和 软 硬 件 的 分 区 ， 进 而 来 匹配 性 能 或 体积 的 限制 。 同 样 这 里 也 
要 考虑 到 如 速度 、 控 制 逻辑 的 大 小 及 片上 存储 等 多 种 因素 ， 以 及 连接 存储 、 传 感 
器 等 其 他 单元 的 接口 。 下 面 举 一 个 例子 ， 针 对 归纳 逻辑 编程 应 用 而 定制 的 多 核 架 
构 FPGA 的 加 速 比 随 着 处 理 器 核 数 量 的 变化 而 变化 ( 见 图 8.12)。 由 于 FPGA 的 
片上 存储 是 固定 的 ， 增 加 处 理 器 核 的 数量 就 会 相应 减少 每 个 核 的 缓存 存储 ; 所 有 
线性 加 速 只 能 到 16 个 核 。 在 这 个 最 优点 之 后 ， 再 增加 核 的 数量 就 会 降低 加 速 比 ， 
因为 每 个 核 的 缓存 已 经 变 得 太 少 。 
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图 8. 12 基于 Arvand 多 核 处 理 器 系统 的 XC2V6000 FPGA 上 
加 速 比 和 累计 缺失 率 随 着 处 理 器 核 数量 的 变化 





5. 选择 数据 的 表示 形式 和 对 应 的 操作 。 在 多 种 算术 表示 方式 中 采用 平衡 设 
计 技 术 非 常 流行 。 例 如 ， 和 宛 余 算法 更 倾向 于 取得 更 快 的 设计 ， 因 为 不 需要 增加 面积 
来 取得 进位 链 。 由 于 细 粒 度 的 FPGA 支持 任何 字 长 度 的 设计 ， 多 种 静态 和 动态 的 字 
长 优化 算法 ， 可 以 支持 在 性 能 、 面 积 、 功 耗 和 如 信和 号 -噪声 比 准确 度 等 方面 取得 最 
好 平衡 的 设计 '®] 。 同 时 也 要 考虑 支持 算术 上 溢 和 下 溢 异 常 的 模型 和 工具 "1 。 

6. 在 物理 需 件 上 为 处 理 和 存储 单元 选择 布局 策略 ， 如 经 常 需要 交互 的 组 件 
紧 挨 着 放置 ， 来 改善 性 能 、 面 积 和 功 耗 。 可 以 通过 启发 式 合并 和 基于 搜索 的 自动 
调谐 器 中 1 来 生成 和 评估 不 同 的 实现 方式 实现 自动 优化 布局 ; 这 种 方法 需要 考虑 
多 种 结构 上 的 约束 ， 如 存在 嵌入 式 计算 或 存储 单元 。 

以 上 的 每 一 个 例子 都 有 通过 验证 来 获得 收益 的 方面 ， 从 高 级 编译 “| 到 扁平 化 
程序 (flattening procedure)' “1 和 布局 策略 ”1 。 现 有 的 验证 平台 '* 使 得 应 用 的 验 
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证 工具 一 致 化 ， 如 符号 化 仿真 器 、 模 型 检查 器 和 定理 证 明 器 。 这 些 平台 表面 支持 复 
杂 设 计 自 我 验证 的 可 能 性 ， 但 是 还 需要 做 很 多 工作 来 证 明 设计 能 利用 各 种 技术 和 能 
通过 多 层次 的 抽象 。 另 外 ， 这 些 平台 和 工具 很 多 可 以 通过 自动 调谐 来 获 益 '* 。 
部 署 前 一 个 重要 的 任务 是 规划 部 署 之 后 的 自我 优化 和 自我 验证 。 这 个 计划 要 
基于 部 署 之 后 具体 有 多 少 有 效 的 运行 时 信息 来 制定 。 例 如 ， 如 果 某 个 设计 的 输入 
是 不 变 的 ， 这 些 不 变 的 输入 可 以 由 设计 通过 布尔 优化 和 重 定时 传播 。 这 些 技 术 可 
以 被 扩展 应 用 到 覆盖 定位 策略 ， 来 产生 紧 竣 布局 "的 参数 描述 。 男 外 一 种 可 
能 ,是 选择 适当 的 结构 模板 来 促进 运行 时 资源 的 整合 。 

部 署 之 前 ， 如 果 验 证 已 经 覆盖 了 优化 和 所 有 其 他 的 部 署 后 的 操作 ， 那 么 部 署 
之 后 就 没有 必要 进行 进一步 的 验证 。 但 是 ， 如 果 这 些 优化 和 验证 虽然 有 效 ， 但 是 
并 不 被 某 一 特定 的 设计 支持 ， 那 么 这 些 优化 和 验证 可 能 很 少 会 发 生 ， 所 以 这 些 被 
优化 和 验证 过 的 设计 会 在 合适 的 时 间 被 安全 地 下 载 到 运行 中 的 系统 ， 尽 量 减少 中 
断 系 统 的 服务 。 
挑战 

开发 各 种 技术 和 工具 来 指定 和 分 析 自 我 优化 和 自我 验证 系统 的 需求 ， 以 及 自 
动 优 化 和 验证 操作 的 方法 和 数据 的 表示 法 。 

相关 优化 技术 包括 调度 、 重 定时 和 字 长 优化 。 另 外 ， 相 关 验 证 技术 包括 程序 
分 析 、 模 型 检查 和 定理 证 明 。 它 们 有 效 的 优化 组 合 ， 与 探索 合适 的 计算 模式 及 相 
关 影 响 的 新 方法 ， 可 以 使 得 有 效 设 计 事 半 功 倍 。 


8.3.4 部 署 后 


优化 的 目的 是 调整 设计 ， 使 其 能 最 好 地 满足 需求 。 但 是 ， 越 来 越 多 的 需求 在 
部 署 使 用 之 后 不 再 与 部 署 之 前 一 样 ， 如 有 新 的 标准 需要 满足 或 者 新 的 错误 需要 处 
理 。 所 以 需要 可 升级 的 设计 来 支持 优化 以 便 满 足 不 断 增长 的 需求 。 除 了 升级 以 
外 ， 部 署 之 后 的 优化 同样 要 满足 资源 共享 、 错 误 移 除 及 适应 运行 时 系统 的 具体 要 
求 ， 如 基于 噪声 变化 选择 合适 的 纠 错 代码 。 

很 明显 ， 任 何 可 编程 设备 都 要 在 部 署 之 后 可 以 被 优化 。 就 像 前 面 描述 的 ， 细 
粒度 设备 比 粗 粒度 设备 具有 更 多 机 会 来 调整 自己 ， 当 然 开 销 也 较 大 。 

接 下 来 重点 介绍 两 种 部 署 后 优化 的 方法 : 条 件 适 配 优 化 和 自主 控制 优化 。 这 
两 种 情况 ， 任 何不 可 信 的 部 署 后 优化 都 应 该 被 轻 量 级 的 验证 来 检测 出 来 ; 可 能 
到 的 技术 包括 带 证 明 的 代码 检测 器 (proof-carrying code checker) ' 字 | 。 这 些 检查 
者 支持 的 参数 可 以 俘获 特殊 操作 的 安全 状况 。 有 一 个 证 明 规 则 的 集合 可 以 被 用 来 
建立 可 接受 的 方法 来 证 明 安 全 状况 。 

正如 前 面 提 到 的 ， 是 否 需要 重负 和 蓓 优化 和 验证 ， 对 于 有 些 任务 是 可 能 需要 的 ， 
这 些 任务 需要 通过 独立 可 信 的 代理 远程 执行 并 通过 安全 路 径 下 载 到 可 用 的 设备 中 ， 
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基于 数字 签名 可 能 可 以 识别 发 送 者 身份 。 另 外 ， 通 过 超时 设备 来 证 明 自 我 优化 和 自 
我 验证 程序 的 无 休止 性 是 需要 非常 谨慎 的 ， 而 且 在 完成 之 前 也 不 会 产生 结果 。 

除了 拥有 超时 设备 ， 部 署 之 后 的 验证 在 处 理 其 他 形式 的 异常 方面 是 非常 有 效 
的 ， 如 验证 失败 或 者 算术 错误 。 应 该 有 错误 恢复 程序 和 能 决定 是 否 避 免 或 纠正 未 
来 类 似 错 误 的 技术 。 对 于 有 些 应 用 ， 片 上 调试 工具 :2 非常 有 用 ; 这 些 工具 可 以 
自己 适 配 来 满足 不 同 应 用 操作 和 缓存 的 需求 。 
8.3.4.1 条 件 适 配 优化 

一 种 在 不 断 变化 的 执行 环境 中 基于 部 署 后 优化 来 获取 收益 的 方法 是 ,不断 地 
适 配 变 化 的 条 件 ， 如 温度 、 品 声 和 流程 变化 等 。 例 如 ， 动 态 重 配置 维特 比 译 码 器 
的 纠 错 卷 积 码 来 适 配 信 道 噪声 条 件 的 变化 ， 可 以 降低 70% 左右 的 译 码 功 耗 开 销 ， 
并 且 不 降低 译 码 的 准确 度 ， 这 一 点 已 经 被 证 明 '”'， 。 

图 8. 13 给 出 了 SPECviewperf benchmark 9 工作 指标 上 限 的 最 优 配置 调度 ， 包 
含 了 一 个 重 配置 时 间 表 最 优 适 配 SPECviewperf\?”? 测试 程序 的 阶段 行为 。 一 个 程 
序 阶段 的 工作 集 保持 恒定 的 一 个 间隔 。 其 目的 是 支持 一 种 动态 优化 规则 ， 利 用 程 
序 间隔 信息 在 运行 时 优化 设计 。 这 种 规则 包括 一 个 硬件 编译 体系 来 生成 配置 增强 
程序 分 支 的 准确 性 '* 和 其 他 不 同 执行 阶段 的 优化 机 会 ， 以 及 一 个 运行 时 系统 来 
管理 配置 的 交互 以 此 来 维护 阶段 转变 之 间 的 优化 。 具 体 思路 是 ， 在 一 个 特定 的 程 
序 段 中 ， 加 快 经 常用 到 的 硬件 分 支 的 速度 ， 当 检测 到 下 一 个 阶段 的 开始 时 ， 重 新 
配置 硬件 来 优化 这 个 新 的 程序 阶段 。 
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图 8. 13 SPECviewperf benchmark 9 工作 指标 上 限 的 最 优 配置 调度 
(虚线 和 实 线 分 别 表示 内 部 和 外 部 循环 时 间 的 可 能 拐点 ) 














为 了 利用 程序 阶段 的 行为 进一步 优化 性 能 ， 部 署 后 的 优化 仍然 有 优化 功 耗 开 
销 的 潜力 。 图 8. 14 给 出 了 功 耗 开销 随 着 时 间 的 一 种 可 能 变化 。 与 静态 设计 相 比 ， 
部 署 后 可 优化 的 设计 ， 可 以 根据 特定 情况 配置 成 最 低 功 耗 开销 的 设计 ， 即 使 在 设 
备 被 重 配 时 有 一 个 功 耗 峰值 。 相 关 技 术 已 经 被 应 用 到 FPGA 中 ， 来 动态 校正 他 们 
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运行 时 的 时 钟 速度 ”或 者 是 进行 动态 的 电压 调节 :7 ;相关 方法 已 经 在 微 架 构 中 
有 应 用 。 这 些 技术 还 可 以 从 部 署 之 后 的 运行 时 条 件 中 获 益 ， 就 像 在 深 亚 微 技 
术 中 适应 处 理 变化 的 影响 一 样 。 









静态 设计 


功 耗 











可 配置 设计 








时 间 
Al8.14 功 耗 开销 随 着 时 间 的 一 种 可 能 变化 (两 个 段 时 间 的 
高 功 耗 表示 在 运行 优化 过 程 中 的 两 个 配置 的 功 耗 ) 








一 种 支持 条 件 适 配 优化 的 有 效 方法 是 ， 把 特定 领域 中 的 定制 整合 到 一 个 高 性 
能 虚拟 机 上 ， 这 样 对 虚拟 机 来 说 部 署 后 设备 的 静态 和 动态 信息 都 有 效 。 这 些 信 息 
可 以 在 多 种 条 件 下 应 用 到 自我 优化 和 自我 验证 中 。 例 如 ， 基 于 库 代 码 的 特定 属性 
和 部 署 后 操作 的 上 下 文 来 优化 硬件 和 软件 库 的 使 用 路 径 。 
8.3.4.2 自主 控制 优化 

“自主 计算 ”已 经 被 应 用 到 系统 中 用 来 支持 自主 管理 、 自 主 优化 甚至 自我 
修复 和 自我 保护 。 它 受到 计算 机 系统 不 断 上 升 的 复杂 性 所 驱动 ， 需 要 很 努力 地 来 
安装 、 配 置 、 调 谐 和 维护 。 相 比 之 下 ， 侧 重 于 设计 处 理 来 支持 并 获 益 于 上 自我 优化 
和 自我 验证 的 组 件 。 

一 种 针对 上 自我 优化 的 改进 后 的 控制 策略 可 以 基于 事件 驱动 ， 在 隐藏 配置 延迟 
的 同时 ， 针 对 运行 时 条 件 来 生成 软件 代码 和 硬件 配置 信息 以 便 及 时 重 配 置 。 一 个 
方向 是 基于 组 件 的 元 数据 (metadata) 描述 ” ， 为 具有 适应 能 力 的 组 件 去 发 展 
理论 和 进行 实践 ， 包 括 软 件 单元 和 硬件 单元 。 这 些 描述 说 明了 现 有 的 优化 ， 并 提 
供 一 个 性 能 模型 和 一 个 利用 组 件 的 元 数据 ， 针 对 给 定 上 下 文 来 找到 并 配置 最 适宜 
实现 的 元 程序 。 这 个 工作 可 以 与 当前 可 定制 的 硬件 编译 技术 合并 在 一 起 ， 这 
样 就 可 以 在 基于 契约 的 方法 中 使 用 元 数据 的 描述 ， 与 研究 具有 适应 能 力 的 软件 组 
件 一 样 。 

男 外 一 个 方向 是 研究 所 需 自 主 行为 的 高 级 描述 ， 以 及 这 些 描 述 如 何 被 用 来 生 
成 活路 的 计划 。 一 个 活路 的 计划 通过 为 每 个 状态 的 每 个 目标 分 配 一 个 行为 来 适应 











第 8 章 RBA. 未 来 的 挑战 261 





AMERI E, ATA AKAA AR, SAS BC ET A Be DZ AY 
计划 来 驱动 ， 计 划 制 定 了 相关 配置 所 应 该 支持 的 属性 。 

对 于 自主 控制 优化 ， 其 他 有 和 希望 的 方向 包括 机 器 学 习 '”、 归 纳 逻 辑 程序 设 
计 '” 和 自我 组 织 的 特征 图 "i 。 实 际 自我 适应 系统 的 例子 ， 如 那些 针对 航天 的 任 
FO) ,同样 应 该 被 研究 来 探索 它们 的 潜力 ， 以 便 扩 展 使 用 性 和 推动 理论 的 发 
展 。 为 这 些 优化 方法 找到 一 个 合适 的 可 证 实 的 概念 。 
挑战 

找到 发 布 前 后 在 协同 优化 和 协同 验证 之 间 提 供 最 优 分 块 的 策略 。 

在 发 布 之 前 完成 的 工作 越 多 ， 发 布 后 的 设计 针对 给 定 的 应 用 就 越 有 效 ， 虽 然 
会 损失 灵活 性 。 在 发 布 前 和 发 布 后 的 优化 和 验证 之 间 获 取 正 确 平衡 的 策略 非常 
有 用 。 


8.3.5 规划 和 挑战 


就 眼前 来 说 ， 要 理解 如 何 组 合 自 我 优化 和 上 自我 验证 组 件 ， 以 使 得 最 终 的 混合 
设计 仍然 可 以 自我 优化 和 自我 验证 。 一 个 关键 问题 是 在 相关 设计 模型 和 模型 表示 
之 间 保 证 理论 和 实际 的 结合 ， 如 同 对 应 优化 和 验证 步骤 之 间 ， 在 语义 模型 和 不 同 
工具 接口 的 通用 性 之 间 保 证 一 致 性 。 

在 特定 的 应 用 领域 首先 开始 研究 自我 优化 和 上 自我 验证 设计 ， 看 起 来 是 一 个 不 
错 的 想法 。 从 这 些 研 究 获 取经 验 ， 来 总 结 出 超越 特定 应 用 特性 的 自我 优化 和 上 自我 
验证 设计 的 范围 和 领域 的 基本 原理 和 理论 。 

另外 一 个 方向 是 研究 一 种 基于 平台 的 方法 来 发 展 自我 优化 和 自我 验证 系 
统 。 很 多 有 前 途 的 工作 "已 经 应 用 在 合并 复杂 设计 的 验证 工具 中 。 这 些 工作 
提供 了 一 个 基础 ， 基 于 此 可 以 进行 自我 优化 和 上 自我 验证 的 进一步 研究 。 开 放 的 
资源 库 使 得 设计 和 工具 可 在 不 同 设计 之 间 共 享 ， 这 是 非常 有 用 的 。 特 别 要 指出 
的 是 所 提出 的 这 个 方法 不 但 可 以 从 验证 过 的 软件 库 资 源 中 收益 ， 同 时 也 对 库 做 
贡献 .“] ， 当 前 作为 英国 “Grand Challenge” 可 信 系 统 升级 项 目的 一 部 分 正在 被 
研究 。 

很 显然 ， 要 挖掘 出 自我 优化 和 自我 研究 的 潜力 还 有 很 多 研究 工作 要 做 。 要 加 
快 自我 优化 和 上 自我 验证 在 未 来 的 发 展 ， 需 要 在 多 个 领域 里 取得 进步 。 
挑战 

到 目前 为 止 ， 都 致力 于 探讨 如 何 设 计 一 个 能 自主 进行 操作 的 独立 单元 。 对 于 
一 个 由 自主 单元 组 成 的 网 络 ， 最 优 性 和 正确 性 的 标准 变 得 越 来 越 复杂 ， 特 别 是 当 
控制 系统 也 是 分 布 式 的 时 候 。 这 就 需要 在 独立 单元 的 最 优 性 和 正确 性 之 间 将 理论 
与 实践 相 结 合 ， 以 及 将 网 络 作为 一 个 整体 的 最 优 性 和 正确 性 之 间 的 理论 与 实践 相 


E 
结合 。 
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挑战 

如 果 可 复 用 组 件 的 质量 及 优化 和 验证 的 组 合 过 程 有 开放 的 标准 ， 复 用 设计 就 
可 以 得 到 广泛 的 应 用 。 这 些 标准 覆盖 了 验证 功能 和 人 性 能 的 方法 集合 ， 包 括 模拟 、 
硬件 仿真 、 形 式 验证 及 不 同 层次 的 抽象 。 
挑战 

有 一 个 很 清晰 的 需求 ， 就 是 要 有 健全 的 基础 作为 基本 原则 ， 紧 密 结合 设计 开 
发 、 原 型 机 制造 和 测试 ， 进 行 有 效 的 自我 优化 和 自我 验证 的 设计 。 挑 战 是 在 改善 
灵活 性 的 同时 适应 性 会 提高 ， 但 也 将 优化 和 验证 复杂 化 。 





8.4 总结 


基于 下 一 代 SoC 和 ASoC， 这 是 一 个 全 新 的 研究 领域 。 正 如 人 们 所 看 到 的 ， 
晶体 管 密度 的 改进 使 得 每 平方 厘米 可 以 集成 10 亿 只 晶体 管 。 如 此 巨大 的 计算 潜 
力 有 一 个 核心 限制 : 电能 。 这 在 体系 结构 领域 打开 了 一 个 新 方向 一 一 纳米 计算 。 
它 与 以 往 的 针对 超级 计算 机 的 工作 截然 不 同 ， 不 存在 竞争 。 这 个 领域 的 目标 是 在 
仅 为 现 有 功 耗 的 百 万 分 之 一 的 级 别 下 ， 研 究 高 性 能 的 算法 和 架构 方法 ， 同 时 释放 
芯片 额外 的 功 耗 开 销 。 

对 于 完美 的 操作 ， 需 要 一 种 无 线 通信 方式 。 这 是 另外 一 个 非常 大 的 挑战 ， 特 
别 是 在 微 瓦 级 进行 功率 分 配 时 。RF 是 一 种 传统 的 方法 ， 一 些 激光 或 红外 线 技术 
也 许 会 提供 新 颖 的 解决 方法 。 

另外 ， 数 字 化 传感器 ， 甚 至 换 能 器 ， 都 存在 一 个 不 可 避免 的 挑战 一 -要 将 多 
个 传感器 集成 到 一 个 无 颖 的 SoC 中 。 

本 章 还 规划 了 设计 的 前 景 ， 提 出 自我 优化 和 自我 验证 组 件 ， 来 处 理由 ITRS 
提出 的 设计 挑战 。 描 述 了 部 署 前 后 自我 优化 和 自我 验证 的 任务 ， 同 时 讨论 了 可 
能 的 收益 和 挑战 。 在 理论 和 实践 上 发 展 自我 优化 和 自我 验证 都 有 助 于 达到 研究 
目标 一 一 使 得 设计 者 能 更 快 地 完成 更 好 的 设计 。 

最 好 的 设计 要 能 够 预测 系统 的 复杂 性 ， 同 时 要 有 效 地 处 理 不 可 预测 的 因素 。 
纵 观 本 章 系统 复杂 性 包括 很 多 因素 : 组 件 设计 与 电源 、 设 计 工 具 、 验 证 与 测试 、 
安全 性 等 。 通 过 平衡 这 些 问题 来 定义 出 有 效 的 设计 。 

这 里 讨论 的 所 有 ASoC 组 件 最 终 要 整合 到 一 个 硅 片上 ， 但 是 有 多 种 不 同 的 组 
合 方式 。 每 一 种 拥有 自己 系统 需求 的 组 合 ， 都 必须 通过 各 自 独 立 的 组 件 来 优化 。 
设计 者 在 自我 优化 和 自我 验证 方法 的 帮助 下 ， 已 不 再 需要 关注 某 个 组 件 而 是 关注 
最 终 的 系统 。 最 终 他 们 成 为 了 系统 设计 师 。 





























附录 ”处理 需 评 估 工 具 


假定 给 出 了 配置 复杂 的 处 理 器 结构 ， 在 没有 仿真 工具 或 预测 工具 帮助 下 ， 预 
测 其 性 能 或 芯片 面积 总 是 不 太 可 能 的 。 

SimpleScalar 工具 集 适 用 于 指令 处 理 絮 的 设计 空间 探索 ， 较 新 版 已 能 支持 四 
种 处 理 器 架构 ，Alpha、ARM、PISA (MIPS 的 变种 ) 和 x86。 

SimplrScalar 用 户 选 择 Web 界面 如 图 A. 1 所 示 ， 图 A. 2、 图 A. 3 分 别 给 出 了 
不 同 的 一 级 缓存 (L1 cache) 和 不 同 的 传输 后 备 缓 冲 器 (Translation Lookaside 
Buffer, TLB) 配置 情形 下 的 仿真 结果 。 

O PISA + math + sim-cache 
© ARM + fmath + sim-bpred + not-taken 
O ARM + fmath + sim-bpred + bimod with large table size 


O x86 + Ilong + sim-outorder + 2 i-ALU + 2 f-ALU 
O x86 + Ilong + sim-outorder + 6 i-ALU + 6 f-ALU 


fie le fo] 


图 A.1 用 户 选 择 Web 界面 


该 SimpleScale Web 界面 为 用 户 提供 了 以 下 主要 功能 : 
”启用 不 同 的 SA， 如 PISA, ARM 和 x86。 
， 启用 不 同 的 基准 测试 程序 ， 如 match. c, fmatch. c 和 long. c。 
”针对 各 种 处 理 器 信息 启用 不 同 的 SimpleScalar 模拟 器 。 
”向 Web 用 户 浏览 需 所 产生 的 图 提供 动态 和 实时 更 新 。 
如 果 想 从 SimpleScalar 的 Web 界面 产生 一 个 图 ， 首 先 需要 选择 架构 ; 然后 根 
据 需要 的 仿真 类 型 ， 选 择 相 应 的 如 一 级 缓存 和 TLB 等 信息 选项 ; 最 后 ， 可 以 选 
择 模拟 IPC 值 或 区 域 信息 。 























































如 图 A.2 所 示 , x 轴 表 示 不 同 的 TLB 的 值 ，y 轴 表 示 不 同 的 仿真 结果 IPC 
值 。 如 图 A. 3 所 示 ， 图 中 每 一 点 表示 不 同一 级 缓存 配置 下 仿真 结果 IPC 值 。 
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伴随 计算 机 系统 不 断 革新 ， 下 一 
代 设 计 师 应 少 关 注 处 理 器 和 存储 ， 而 
应 更 多 关注 面向 特定 应 用 的 系统 各 部 
件 订 制 ， 他 们 必须 掌握 如 何在 成 本 、 
性 能 及 其 他 属性 间 做 优化 均衡 以 便 满 
足 应 用 需求 。 为 此 ， 本 文 给 出 了 全 新 
的 针对 计算 机 系统 设计 尤其 是 片上 
系统 (SoC ) 的 面向 硬件 的 解决 方 
案 。 

本 书 由 计算 机 工程 设计 领域 引 
领 者 编写 ， 除 了 分 析 宽 范 围 的 体系 结 
构 与 应 用 相关 的 技术 ， 还 提出 了 开发 
SoC 解 决 方案 的 基本 框架 。 从 高 度 
的 以 系统 为 中 心 的 观点 出 发 ， 描 述 系 
统 设计 空间 并 详细 描述 SoC 的 处 理 
器 、 存 储 和 互 连 基本 要 素 。 

为 了 降低 成 本 并 拓宽 SoC 应 用 
性 ,我 们 可 以 采纳 面向 特定 应 用 效能 
的 公共 硬件 平台 。 本 书 涵 盖 了 SoC 
的 各 种 定制 技术 ， 尤 其 基于 可 重 构 
技术 ， 当 定制 不 可 预见 时 会 显现 优 
势 。 本 书 前 几 章 会 描述 一 些 技术 如 何 
应 用 ， 并 表明 SoC 设 计 中 各 种 应 用 
的 可 能 和 系统 级 均衡 技术 。 最 后 探究 
系统 设计 和 SoC 未 来 可 能 面 对 的 挑 
战 ， 包 括 设计 部 署 前 后 的 自主 片上 系 
统 和 自我 优化 。 

本 书 在 每 章 结尾 配 有 练习 题 和 相 
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